Meta anuncia dos nuevos clústeres de 24k GPU y confirma que el entrenamiento de Llama 3 sigue en curso

MADRID, 13 Mar. (Portaltic/EP) -

Meta ha anunciado una inversión en infraestructura de Inteligencia Artificial (IA) con dos nuevos clústeres de 24k GPU, cuyo diseño se utiliza para entrenar su modelo de lenguaje grande (LLM, por sus siglas en inglés) Llama 3.

La compañía ha compartido los detalles sobre el 'hardware', la red, el almacenamiento, el diseño, el rendimiento y el 'software' que les permiten "obtener un alto rendimiento y fiabilidad" para las diversas cargas de trabajo que exigen los modelos de IA.

Meta es consciente de que "liderar el desarrollo de la IA significa liderar las inversiones en infraestructura de 'hardware', que juega un papel fundamental en el futuro de la IA", tal y como ha explicado en un comunicado.

Por este motivo, ha creado dos clústeres de 24.576 GPU, que respaldan los modelos de IA actuales y de próxima generación, entre los que se incluye el sucesor de Llama 2, que actualmente está siendo entrenado.

La firma tecnológica ha explicado que planea construir una IA general (AGI) que sea "abierta y responsable" y que pueda estar ampliamente disponible para que todos los usuarios se puedan beneficiar de ella.

No obstante, mientras continúa desarrollando este formato, ha estado trabajando en ampliar sus clústeres, a fin de impulsar nuevas funciones de IA para su familia de aplicaciones y nuevos dispositivos informáticos centrados en esta tecnología.

Esto también ha sido posible con el SuperCluster de investigación de IA (RSC), presentado en 2022, que incluye 16.000 GPU Nvidia A100, y que desempeña "un papel importante" en el desarrollo de los modelos Llama y Llama 2.

En base a las lecciones aprendidas de RSC, la firma se ha centrado en la creación de IA con especial énfasis en "la experiencia y la productividad de investigadores y desarrolladores", según ha explicado en este comunicado.

La eficiencia de las estructuras de red de alto rendimiento dentro de estos clústeres, en combinación con las 24k GPU Nvidia Tensor Core H100 en cada uno de ellos, "permiten que ambas versiones de clúster admitan modelos más grandes y más complejos" de los que se podrían admitir en el RSC. Por eso, Meta cree que ambos allanan el camino para avances en el desarrollo de productos GenAI y en la investigación de la IA.

DOS SOLUCIONES PARA UNA INFRAESTRUCTURA FLEXIBLE

La firma es consciente de que ofrecer servicios gran escala requiere que su infraestructura sea "avanzada y flexible", con un diseño personalizado del 'hardware' y el 'software'. Esto les permite garantizar que sus centros de datos funcionen de manera eficiente.

El primero de estos clústeres presenta una solución de estructura de red de acceso remoto directo a memoria (RDMA) a través de Ethernet convergente (RoCE), basada en Arista 7800 y con conmutadores de 'rack' OCP Wedge400 y Minipack2.

El otro clúster cuenta con una infraestructura Nvidia Quantum2 InfiniBand. Además, ambas soluciones interconectan puntos finales de 400 Gbps y con ambos se puede evaluar la idoneidad y la escalabilidad de los diferentes tipos de interconexión para la capacitación a gran escala.

Meta ha comentado, por otra parte, que ambos clústeres se construyen usando Grand Teton, una plataforma de 'hardware' GPU abierta y que se basa en diferentes generaciones de sistemas de IA que integran energía, control, computación e interfaces de estructura en un solo chasis, lo que mejora el rendimiento general y térmico, así como la integridad de la señal.

A nivel de almacenamiento, y teniendo en cuenta que los trabajos de capacitación del equipo de investigación de IA generativa consumen grandes cantidades de datos, la tecnológica ha optado por una interfaz de programación de aplicaciones (API, por sus siglas en inglés) de archivos Linux en el espacio de usuario (FUSE) respaldada por la solución de almacenamiento distribuido Tectonic de Meta, optimizada para medios Flash.

Esta solución permite que miles de GPU "guarden y carguen puntos de control de forma sincronizada", propocionando de forma simultánea un almacenamiento flexible a escala de exabytes.

Por otra parte, Meta se ha asociado con Hammerspace para desarrollar en conjunto un sistema de archivos de red (NFS). Así, la combinación de Tectonic con Hammerspace -que se basan en la plataforma de servidor YV3 Sierra Point- ofrece "una velocidad de iteración rápida sin comprometer la escalabilidad".

Meta ha recordado finalmente que mantiene su compromiso con la innovación abierta en 'software' y 'hardware' de IA, por lo que ha lanzado un programa de asociación para investigadores académicos que deseen desarrollar y compartir de forma responsable estas tecnologías, así como AI Alliance, un grupo de organizaciones centradas en acelerar la innovación responsable dentro de una comunidad abierta.

RESPONSABLE	EUROPA PRESS NOTICIAS S.A.
FINALIDAD PRINCIPAL	Gestionar el envío del boletín de noticias diario para informarle de los hechos más relevantes de cada día.
LEGITIMACIÓN	Consentimiento del interesado.
DESTINATARIOS	Sus datos podrán ser comunicados al resto de entidades del Grupo Europa Press con la finalidad de poder gestionar de forma correcta la suscripción.
DERECHOS	Acceso, rectificación, supresión y portabilidad de sus datos, de limitación y oposición a su tratamiento, así como a no ser objeto de decisiones basadas únicamente en el tratamiento automatizado de sus datos, cuando procedan.
INFORMACIÓN ADICIONAL	Puede consultar la información adicional y detallada sobre nuestra Política de Privacidad enhttps://www.europapress.es/politica-privacidad.htmlo escribiendo al correo electrónicoprotecciondedatos@europapress.es

Autonomías

Portales temáticos

Meta anuncia dos nuevos clústeres de 24k GPU y confirma que el entrenamiento de Llama 3 sigue en curso

DOS SOLUCIONES PARA UNA INFRAESTRUCTURA FLEXIBLE

Leer más acerca de:

Más leídasofrecido por

Autonomías

Portales temáticos

Meta anuncia dos nuevos clústeres de 24k GPU y confirma que el entrenamiento de Llama 3 sigue en curso

Boletín de PortalTIC

DOS SOLUCIONES PARA UNA INFRAESTRUCTURA FLEXIBLE

Leer más acerca de:

Más leídasofrecido por