Gafas con IA Ray-Ban Meta. - META
MADRID, 19 Nov. (Portaltic/EP) -
Meta ha destripado cómo operan las traducciones instantáneas de sus gafas con inteligencia artificial (IA), capaces de transcribir, traducir y reproducir audio en cuestión de segundos directamente desde el dispositivo, con el foco puesto en un diseño centrado en las personas y la capacidad de superar diversos obstáculos para adaptarse a las necesidades del usuario y facilitar su comunicación.
La barrera del idioma es un factor con el que la sociedad ha lidiado continuamente, siempre buscando la forma de satisfacer una necesidad básica, como es la de ser comprendido y comunicarse con cualquier persona.
Así, la primera vez que la compañía liderada por Mark Zuckerberg comenzó a hablar de funciones impulsadas por inteligencia artificial (IA) en tiempo real para sus gafas inteligentes fue en el marco de su evento anual Meta Connect 2024, cuando llevó a cabo una demostración de las traducciones instantáneas de una conversación.
Desde entonces, Meta ha ido ampliando la disponibilidad de la traducción simultánea en toda su gama de gafas con inteligencia artificial, incluidos los modelos de las series Ray-Ban Meta, las Oakley Meta Vanguard, las Oakley Meta HSTN y las nuevas Meta Ray-Ban Display, presentadas el pasado mes de septiembre.
Además, la compañía ofrece compatibilidad de traducción para múltiples idiomas, incluido el inglés, francés, alemán, italiano, portugués y español, lo que permite ampliar la comunicación de forma sencilla y accesible en una amplia variedad de regiones.
Esta funcionalidad aporta una gran utilidad, dado que basta con llevar las gafas puestas y activas para que, al mantener una conversación en otro idioma con una persona, los altavoces reproduzcan las interacciones traducidas prácticamente al momento. Sin embargo, el cómo funciona realmente esta tecnología de traducción en tiempo real en las gafas de Meta con IA es una incógnita para muchos.
Es por ello que Meta ha querido compartir una mirada más de cerca a esta función, detallando a través de un comunicado cómo se llevan a cabo las traducciones directamente a través de las gafas, así como su integración con múltiples idiomas y el proceso de crear una experiencia de usuario diseñada especialmente para viajes y comunicación diaria.
FUNCIONAMIENTO: TRANSCRIPCIÓN, TRADUCCIÓN Y AUDIO
La traducción en tiempo real comienza en el momento de recoger la conversación. En el caso de las gafas Ray-Ban Meta, integran un conjunto de cinco micrófonos que captan el sonido ambiente, así como las interacciones tanto del interlocutor como de la propia persona que lleva las gafas.
Sin embargo, como ha matizado el director de producto, Nish Gupta, la forma en la que están dispuestos estos micrófonos permite distinguir en cada momento quién está hablando, si es el usuario o la persona con la que habla, garantizando así traducciones precisas.
Igualmente, una vez hecha la traducción, en lugar de "depender de una pantalla para mostrar el texto traducido", las gafas aprovechan los propios altavoces integrados para "reproducir la traducción prácticamente en tiempo real", que llega directamente a los oídos del usuario.
En cuanto al proceso de traducción como tal, se ha de tener en cuenta que se ejecuta de forma completamente local, en las propias gafas. Así, una vez las gafas recogen el audio en otro idioma, por ejemplo, el francés, utilizan un sistema que lo transcribe a texto y, en este formato, lo traduce al idioma deseado, por ejemplo, el español.
Tras ello, entra en escena un sistema de conversión de texto a voz, que transforma el texto traducido al español en audio para, finalmente, reproducirlo a través de los altavoces.
DISEÑO CENTRADO EN LAS PERSONAS
Aunque parece un método laborioso pero sencillo, Meta asegura que es "una función muy compleja por diseño". Esto se debe a que se ha diseñado poniendo a las personas "en el centro", para lo que han tenido que contemplar su uso y funcionamiento en diversas situaciones, desde viajes internacionales a entornos de trabajo e, incluso de aprendizaje.
Todo ello también llevó al equipo de desarrollo a tener en cuenta "muchos escenarios atípicos", como ha explicado el director de gestión de producto, Ashish Garg. Por ejemplo, viajes en los que no se disponga de conexión a internet. "Pensamos, ¿Y si pudieran descargarlo con antelación? ¿Podrían usarlo en modo avión? Pensamos detenidamente en la experiencia completa del usuario", ha manifestado Garg.
Como resultado a estos planteamientos, la traducción en tiempo real de las gafas inteligentes de Meta no se procesa en el servidor, sino que se lleva a cabo mediante un potente modelo de IA integrado en el propio dispositivo.
LOS OBSTÁCULOS
Según ha explicado el gerente de producto, Emerson Qin, integrar un modelo "tan potente y útil" en unas gafas que funcionen sin conexión a internet "ya es de por sí un reto", por lo que conlleva muchas otras dificultades. Por ejemplo, como todo se lleva a cabo en el dispositivo, no se puede acceder a tanta información o registros como sí se podría ejecutándolo en el servidor.
Asimismo, Meta tuvo que optimizar los modelos para que cupieran en la memoria de las gafas y evitar el sobrecalentamiento de las mismas. Igualmente, también se tuvo que reducir la latencia de más de cinco segundos a 2,7 segundos para que las conversaciones fueran más fluidas y naturales. Esto supuso una mejora de alrededor del 46 por ciento aumentando la rapidez.
Pero estos no fueron los únicos impedimentos, los desarrolladores de esta función tuvieron que replantearse desde la forma de interactuar de las gafas con los usuarios, hasta cómo lograr una experiencia fluida tanto para quien usa las gafas como para la persona con la que conversa.
"La innovación más destacable es la capacidad del modelo para comprender, traducir y generar audio de voz, todo en tiempo real, en el lapso de unas pocas palabras, sin tener que esperar a que se complete una frase u oración", ha apostillado Qin.
Teniendo todo ello en cuenta, Meta pretende continuar mejorando esta capacidad de sus gafas, dado que ha admitido que todavía se percibe cierta latencia y la precisión "no es perfecta". Como perspectiva de futuro, la compañía pretende ofrecer una traducción más rápida y precisa, así como añadir más idiomas.
Para esto último, con cada nuevo idioma, los miembros del equipo deberán llevar a cabo un entrenamiento y una evaluación de modelos personalizados específicos para el formato de gafas inteligentes, lo que hace más difícil escalar esta tecnología a más regiones y personas.
Actualmente, aunque "aún queda mucho por recorrer", la traducción en tiempo real con las gafas de Meta ya se utiliza para cuestiones como conectar con familiares, orientarse en lugares nuevos, comunicarse en comunidad y "superar barreras en el trabajo".
Esto se debe a que, como asegura Meta, la traducción en tiempo real está registrando "una gran acogida", comparable con la de otros casos de uso de este tipo de tecnologías de IA. Además de que puede utilizarse junto a las transcripciones de texto en ambos idiomas, que aparecen en la aplicación Meta AI, y que ofrece una interacción más natural que los auriculares que cuentan con traducción y pueden aislar.
"A medida que se añaden más idiomas a los dispositivos, la industria tecnológica contribuye a que el mundo se sienta un poco más conectado, una conversación a la vez", ha sentenciado Meta.