Las voces clonadas de la IA son más fáciles de entender que las voces humanas

Europa Press Sociedad
Publicado: martes, 21 abril 2026 17:22

MADRID 21 Abr. (EUROPA PRESS) -

Las voces clonadas son más fáciles de entender que las humanas en entornos ruidosos, según un trabajo de dos investigadores del University College London y la Universidad de Roehampton, ambas en Reino Unido. Tal y como se recoge en la revista 'JASA', publicada por AIP Publishing en nombre de la Acoustical Society of America, los investigadores evaluaron la inteligibilidad de la voz humana y de las voces clonadas con este resultado sorprendente.

Cada vez más, las voces sintéticas forman parte de nuestra vida cotidiana. Desde asistentes digitales como Siri y Alexa hasta teleoperadores automatizados y contestadores automáticos. Con la expansión de la IA generativa, se ha desarrollado un nuevo tipo de voz sintética: los clones de voz, capaces de recrear una réplica exacta de la voz de una persona a partir de tan solo unos segundos de grabación.

Las voces clonadas se diferencian de las voces sintéticas tradicionales en la cantidad de muestras que requieren. Las voces sintéticas como Siri exigen que un actor de voz pase horas en una cabina de grabación. En cambio, una voz clonada se puede crear con tan solo 10 segundos de habla, lo que amplía significativamente el número de voces potenciales, así como el número de aplicaciones posibles.

Los investigadores Patti Adank y Han Wang, especializados en el estudio de la percepción humana del habla poco clara, quedaron fascinados por la idea de la voz replicada por máquinas. Una pregunta clave que buscaban responder era cuán fácil resulta para la persona promedio comprender los clones de voz.

Sospechaban que estos clones serían simplemente representaciones deficientes de voces humanas reales y que la gente tendría dificultades para entenderlos. Sin embargo, lo que descubrieron fue completamente diferente.

"Al principio pensé que las voces clonadas serían menos inteligibles por ser desconocidas", reflexiona Adank. "Descubrí que eran hasta un 20% más inteligibles, lo cual fue bastante sorprendente. Una pequeña parte de nuestro artículo trata sobre ese experimento, y la mayor parte consiste en que mi colaborador y yo intentamos desesperadamente averiguar qué es lo que hace que esas voces clonadas sean más inteligibles".

Inicialmente, el dúo presentó a voluntarios voces humanas y voces clonadas, pidiéndoles que calificaran su inteligibilidad. Tras comprobar que las voces clonadas se consideraban consistentemente más fáciles de entender, repitieron el experimento con voluntarios de edad avanzada para determinar si la pérdida auditiva alteraba el efecto; con voluntarios estadounidenses (el grupo original era británico) para evaluar si el acento influía; y con un filtro diseñado para imitar implantes cocleares. En todos los casos, las voces clonadas resultaron superiores.

Tras examinar más de 100 mediciones acústicas, Adank cree que la única manera de resolver el misterio es trabajar con colaboradores especializados en sistemas de conversión de texto a voz para adaptar un sistema de clonación de código abierto ya existente.

"Ahora vamos a intentar recrear [el efecto] estudiando cómo funcionan los sintetizadores y cómo utilizan el procesamiento digital de señales para generar esas voces, simplemente para comprender mejor este proceso", finaliza Adank.

Contador

Últimas noticias sobre estos temas

Contenido patrocinado