Apple desarrolla un modelo para hacer ediciones guiadas en las imágenes con lenguaje natural

La manzana mordida del logo de Apple
La manzana mordida del logo de Apple - APPLE
Actualizado: miércoles, 7 febrero 2024 17:42

    MADRID, 7 Feb. (Portaltic/EP) -

Apple, en colaboración con investigadores de la Universidad de California en Santa Bárbara (Estados Unidos), ha desarrollado un modelo para hacer ediciones guiadas en las imágenes usando el lenguaje natural.

   Los grandes modelos de lenguaje (LLM, por sus siglas en inglés) han demostrado tener capacidad para comprender una variedad de formatos multimedia y para generar una respuesta visual, como se aprecia en las herramientas que los usan en su base, que generan imágenes, vídeos o canciones con una pequeña instrucción por escrito.

   Apple también está trabajando en inteligencia artificial generativa. Una de sus investigaciones pretendía comprobar la manera en que los LLM pueden editar las imágenes mediante instrucciones dadas por el usuario, lo que ha dado lugar al modelo denominado MGIE.

   Este modelo de edición guiada de imágenes se ha desarrollado en colaboración con investigadores de la Universidad de California en Santa Bárbara y sobre él han evaluado distintos aspectos, como las modificaciones al estilo Photoshop, una optimización global de la imagen y la edición local, como explican en el texto de la investigación publicado en Arxiv.

   Por ejemplo, mediante instrucciones expresivas con lenguaje natural, el modelo ha sido capaz de retirar un árbol de navidad del fondo de una fotografía para dejar como protagonistas a las dos personas que aparecen en primer plano.

   También ha modificado por completo la imagen de un lago en un día apacible para simular un cielo nocturno con un relámpago brillante que se refleja en el agua. O incluso modificar el glaseado de unos donuts, para que en lugar de estar recubiertos de chocolate con chispas de colores mostraran una cobertura rosa brillante con algunas chispas.

   La compañía ha destacado que “las instrucciones expresivas son cruciales para la edición de imágenes basada en instrucciones”. Con ellas, el modelo “conduce a una edición razonable de la imagen” y por ello creen que puede ayudar a la mejorar la investigación futura sobre visión y texto, como concluyen.

Leer más acerca de: