Google saca músculo con la IA: nuevas herramientas, modelos más capaces y el anticipo de un asistente universal

Presentación dedicada a Gemini en Google I/O 2024
Presentación dedicada a Gemini en Google I/O 2024 - GOOGLE
Actualizado: jueves, 27 junio 2024 15:48

MADRID, 14 May. (Portaltic/EP) -

Google lo apuesta todo a la inteligencia artificial (IA) con Gemini, su familia de modelos de lenguaje grande que abre el camino hacia el asistente inteligente universal que la compañía ha anticipado con Project Astra, pero también con los agentes que realizan tareas por los usuarios y las nuevas capacidades que ofrece una mayor ventana de contexto en su modelo estrella, Gemini 1.5 Pro.

Google ha celebrado este martes una nueva edición de su evento anual de desarrolladores Google I/O, en el que se ha constatado que Gemini es su camino hacia la inteligencia artificial general, esto es, una IA responsable que sea útil para las personas en su día a día.

Actualmente, la familia de modelos Gemini impulsa las principales funciones de IA de los servicios de la compañía. Gemini 1.5 Pro, con su ventana de contexto de hasta un millón de tokens, ofrece un razonamiento, planificación y comprensión más avanzados.

Gemini 1.5 Pro está disponible desde este martes para todos los desarrolladores a nivel global, y dentro de la suscripción Gemini Advanced, ampliará su ventana de contexto a 2 millones de tokens a finales de año, estando primero disponible para desarrolladores con una vista previa privada.

De la mano de Google DeepMind, la familia de modelos crece con una nueva incorporación: Gemini 1.5 Flash, una versión más ligera que Pro optimizada para tareas comunes como resumen o traducción, que puede probarse en Google AI studio y Vertex AI con un millón de tokens.

Gemini también impulsa los agentes, unos sistemas inteligentes que muestran capacidad de razonamiento, planificación y memoria para ayudar al usuario en una amplia variedad de tareas, con el apoyo de servicios de Google como Gmail o Chrome.

Asimismo, ha actualizado las herramientas de IA generativa que se enmarcan bajo Generative Media, dedicadas a la creación de imágenes, música y vídeos, y en las que ha trabajado en los últimos meses.

Imagen 3, en pruebas en Labs, ofrece ahora un resultado más fotorrealista, ya que crea imágenes con gran detalle y calidad a partir de descripciones que el usuario puede completar con todo los matices que quiera añadir.

Music AI Sandbox, por su parte, ofrece un conjunto de herramientas de IA para la creación de canciones de calidad profesional, mientras que Veo genera vídeo en alta calidad (1080p) a partir de texto, imágenes y propuestas de vídeo, e incorporar efectos con la función experimental VideoFx.

Google DeepMind también ha anticipado Project Astra, lo que la compañía espera que en un futuro sea un verdadero asistente universal. En la demostración que se ha compartido, la compañía ha apuntado que es un asistente multimodal construido a partir de Gemini que ve el mundo a través de la cámara del 'smartphone' para que el usuario pueda preguntar sobre él.

GEMMA 2

Por otra parte, Google ha presentado la sexta generación de unidades de procesamiento Tensor (TPU), Trillium, que incrementa 4,7 veces el pico de computación y está detrás del entrenamiento de modelos como Gemini 1.5 Flash, Imagen 3, pero también Gemma 2.

La familia de modelos de lenguaje de código abierto de Google se ha ampliado con PaliGemma, un modelo de de lenguaje visual para la realización de tareas que involucren imágenes, subtítulos, preguntas visuales, comprensión de textos en imágenes, etc.

Próximamente se ampliará con Gemma 2, una nueva generación que estará disponible con 27.000 millones de parámetros (27B), un tamaño que ofrece un rendimiento a la altura de Llama 3 de Meta, que cuenta con 70.000 millones de parámetros. Está optimizado para ejecutarse en GPU Nvidia en un solo TPU en Vertex AI.

Leer más acerca de: