Read the English version of this story
MADRID 7 Ene. (EUROPA PRESS) -
Europa Press ha completado un proyecto, con el apoyo financiero del Centro para el Desarrollo Tecnológico Industrial (CDTI), con el objetivo de mejorar mediante Inteligencia Artificial la eficiencia en el procesamiento del material audiovisual que llega cada día a los medios de comunicación.
Como parte de su política de I+D, la agencia ha creado en colaboración con la empresa española AyGLOO un prototipo, Smart News Analyzer (SNA), capaz de convertir a texto cualquier contenido informativo que llegue a la redacción, ya sea en audio o en vídeo, clasificarlo por temáticas, encontrar momentos de interés y procesarlo de manera más eficiente.
¿CÓMO FUNCIONA LA HERRAMIENTA?
Para ello, la herramienta usa 5 técnicas diferentes de inteligencia artificial (NLP, Teoría de Grafos, STS, NLG y XAI) que se aplican sobre los audios y vídeos que cada día llegan a las redacciones de medios en forma de entrevistas, ruedas de prensa, declaraciones breves, etc.
Aplicando IA, el prototipo es capaz de acortar los tiempos de reacción ofreciendo al periodista casi en tiempo real una transcripción del audio, cortes de 'momentos de interés' según intereses previos predefinidos por el usuario, así como dos tipos de resúmenes: uno extractivo y otro abstractivo, según la terminología propia de los modelos de lenguaje. Todo ello en un proceso distribuido icloud masivo seguido 'on line'.
Prototipo de front de la herramienta
¿CUÁL ES EL OBJETIVO?
El objetivo es reducir al mínimo los tiempos entre que se produce una noticia y se informa de ella y usar la tecnología para facilitar el trabajo diario de las redacciones, ofreciendo a los periodistas herramientas que les puedan servir de apoyo en aquellas tareas más repetitivas y en la distribución de contenido audiovisual.
Conscientes de la importancia de arrojar luz sobre la 'caja negra' que suponen este tipo de modelos, especialmente en un entorno como el de la información periodística, el proyecto incluye además como objetivo adicional dotar a la herramienta de un módulo de explicabilidad que dé claves al periodistas sobre posibles sesgos en las decisiones adoptadas por la IA.
RETOS TÉCNICOS
Uno de los retos técnicos ha sido la elección de un modelo para realizar tareas de sumarización abstractiva, una decisión que implica evaluar múltiples factores técnicos y económicos, incluyendo el rendimiento del modelo, los costos asociados a su entrenamiento e implementación, y la calidad de los resultados obtenidos.
Después de un análisis exhaustivo, se determinó que utilizar Openai era la opción más viable en lugar de entrenar un modelo de cero basado en una arquitectura Encoder-Decoder o ajustar modelos más pequeños como LLaMA.
Los modelos de lenguaje avanzados, como Openai, han demostrado niveles de precisión y coherencia superiores en tareas de generación de texto, incluyendo la sumarización abstractiva. Si bien ajustar un modelo pequeño podría ser viable en algunos casos, la calidad y robustez ofrecida por Openai superan los resultados esperados de modelos más ligeros ajustados en dominios específicos.
Búsqueda de últimas noticias vinculadas
Otro reto ha sido lograr una herramienta con una utilidad práctica real en el día a día de las redacciones. En este sentido, teniendo en cuenta que un personaje que está interviniendo en directo puede dar distintas noticias que interesen a distintas secciones de la redacción se estableció la necesidad de desarrollar un clasificador de partes del discurso por temáticas.
Dado que en las transcripciones de ruedas de prensa, entrevistas, programas de televisión, etc., la información no está estructurada, hubo que desarrollar una herramienta de separación de párrafos y codificar de esas frases del texto en un formato que entienda el modelo ('embeddings') para poder comparar ese resultado con el corpus de noticias de la agencia, y tener así suficiente contexto con el que realizar la clasificación por temáticas.
El objetivo era crear un ranking en el que las frases del texto compitan entre ellas por alcanzar un determinado umbral de similitud con los hechos noticiosos que estén de actualidad en ese momento de manera que ninguno de ellos sea obviado o no tenido en cuenta, especialmente al tratarse en la mayoría de los casos de grandes textos generados a partir de entrevistas o ruedas de prensa donde la redacción en su conjunto es algo dispersa.
Esquema con el funcionamiento básico del prototipo
En este sentido, se incorporó el uso de la propia base de datos de Europa Press para destacar los hechos noticiosos que suponen temas de actualidad con la finalidad de que el algoritmo de inteligencia artificial pueda relacionar dichos contenidos de actualidad con los descritos e identificados dentro del propio texto. De esta manera, se favorecen estadísticamente los puestos en el ranking de cada una de las frases identificadas.
Se incorporó el uso de la propia base de datos de Europa Press para destacar los hechos noticiosos que suponen temas de actualidad
Además, hubo que crear perfiles de usuario con los intereses particulares de cada periodista, lo que también se convierte en 'embedding'. La similitud coseno del perfil con cada una de las frases lleva a posiciones más altas en el ranking a aquellas frases que tengan un significado cercano a la descripción del perfil del usuario.
A medida que el proyecto fue desarrollándose se fueron añadiendo nuevos análisis, como es el caso de otro procesamiento para determinar la forma de expresarse de la persona que está hablando. Expresiones más polémicas o enfáticas también suben posiciones en el ranking para que el periodista pueda evaluarlas.
Otro de los nuevos análisis incorporados en la última parte del proyecto cruza la información extraída de los audios y vídeos con una base de datos de hechos contrastado y 'fake news' ya desmentidos por entidades certificadoras para que, en caso afirmativo, pueda influir en la decisión del algoritmo a la hora de considerarlo un momento de interés.
PRÓXIMOS PASOS
Completado el prototipo, el siguiente paso será poner a disposición de la redacción y de socios la herramienta para afinar su uso y conseguir que sea lo más práctica posible.