Meta lanza una herramienta de IA capaz de relacionar varios tipos de datos, como imagen, profundidad y temperatura

ImageBind
ImageBind - META
Actualizado: miércoles, 10 mayo 2023 15:17

   MADRID, 10 May. (Portaltic/EP) -

Meta ha lanzado una nueva herramienta que utiliza inteligencia artificial (IA) para aprender de forma similar a los humanos, manejando distintos tipos de datos de manera simultánea, como la profundidad o la temperatura, y sin necesidad de una supervisión explícita.

   La compañía ha comentado que ImageBind, un proyecto que forma parte de la iniciativa de crear sistemas multimodales capaces de aprender de diferentes tipos de datos, puede vincular seis tipos de fuentes de entrada.

   De hecho, este modelo aprende un espacio de representación integrado en el que convergen diversos elementos- texto, imágenes, vídeos y audio- y registra factores, como la profundidad (3D) y la temperatura, de distintos sensores, y las unidades de medición inercial, que calculan el movimiento y la posición,

   Asimismo, Meta ha insistido en que ImageBind "también podría proporcionar una forma rica de explorar los recuerdos: búsqueda de fotos, vídeos, archivos de audio o mensajes de texto mediante una combinación de texto, audio e imagen".

   Esto es posible porque, al contrario que los sistemas habituales de IA, que estudian vectores de forma individual y según la modalidad de estos datos, la herramienta de Meta "crea un espacio de incrustación conjunto para múltiples modalidades" sin que sea necesario entrenarlo con datos de cada combinación de estas fuentes (esto es, solo vídeo o solo audio, por ejemplo).

   La compañía tecnológica cree que este factor es lo que le diferencia de otras IA, ya que su herramienta intenta aprender de un único espacio de características "para múltiples modalidades" o contextos; unas capacidades que irá mejorando conforme vaya aprovechando las características visuales de DINOv2.

   Esta solución, por otro lado, puede interpretar el contenido de forma más holística, permitiendo que las distintas modalidades se comuniquen entre sí y encuentren vínculos sin necesidad de analizarlas a la vez. Esto es, puede establecer correlaciones naturales entre audio y texto sin aprenderlos a la vez.

   Gracias a eso, otros modelos de aprendizaje pueden comprender nuevas modalidades de ImageBind sin necesidad de un aprendizaje que consuma muchos recursos gracias a su fuerte comportamiento de escalado.

   Finalmente, aunque en su investigación actual ha explorado seis modalidades, Meta cree que la introducción de nuevas variantes -como el tacto, el habla o el olfato- permitirá crear modelos de IA centrados en el ser humano.

Leer más acerca de: