Meta anuncia dos nuevos clústeres de 24k GPU y confirma que el entrenamiento de Llama 3 sigue en curso

Meta trabaja con dos clústeres de GPU de 24k, RDMA e Infiniband
Meta trabaja con dos clústeres de GPU de 24k, RDMA e Infiniband - META
Publicado: miércoles, 13 marzo 2024 12:56

   MADRID, 13 Mar. (Portaltic/EP) -

Meta ha anunciado una inversión en infraestructura de Inteligencia Artificial (IA) con dos nuevos clústeres de 24k GPU, cuyo diseño se utiliza para entrenar su modelo de lenguaje grande (LLM, por sus siglas en inglés) Llama 3.

   La compañía ha compartido los detalles sobre el 'hardware', la red, el almacenamiento, el diseño, el rendimiento y el 'software' que les permiten "obtener un alto rendimiento y fiabilidad" para las diversas cargas de trabajo que exigen los modelos de IA.

   Meta es consciente de que "liderar el desarrollo de la IA significa liderar las inversiones en infraestructura de 'hardware', que juega un papel fundamental en el futuro de la IA", tal y como ha explicado en un comunicado.

   Por este motivo, ha creado dos clústeres de 24.576 GPU, que respaldan los modelos de IA actuales y de próxima generación, entre los que se incluye el sucesor de Llama 2, que actualmente está siendo entrenado.

   La firma tecnológica ha explicado que planea construir una IA general (AGI) que sea "abierta y responsable" y que pueda estar ampliamente disponible para que todos los usuarios se puedan beneficiar de ella.

   No obstante, mientras continúa desarrollando este formato, ha estado trabajando en ampliar sus clústeres, a fin de impulsar nuevas funciones de IA para su familia de aplicaciones y nuevos dispositivos informáticos centrados en esta tecnología.

   Esto también ha sido posible con el SuperCluster de investigación de IA (RSC), presentado en 2022, que incluye 16.000 GPU Nvidia A100, y que desempeña "un papel importante" en el desarrollo de los modelos Llama y Llama 2.

   En base a las lecciones aprendidas de RSC, la firma se ha centrado en la creación de IA con especial énfasis en "la experiencia y la productividad de investigadores y desarrolladores", según ha explicado en este comunicado.

   La eficiencia de las estructuras de red de alto rendimiento dentro de estos clústeres, en combinación con las 24k GPU Nvidia Tensor Core H100 en cada uno de ellos, "permiten que ambas versiones de clúster admitan modelos más grandes y más complejos" de los que se podrían admitir en el RSC. Por eso, Meta cree que ambos allanan el camino para avances en el desarrollo de productos GenAI y en la investigación de la IA.

DOS SOLUCIONES PARA UNA INFRAESTRUCTURA FLEXIBLE

   La firma es consciente de que ofrecer servicios gran escala requiere que su infraestructura sea "avanzada y flexible", con un diseño personalizado del 'hardware' y el 'software'. Esto les permite garantizar que sus centros de datos funcionen de manera eficiente.

   El primero de estos clústeres presenta una solución de estructura de red de acceso remoto directo a memoria (RDMA) a través de Ethernet convergente (RoCE), basada en Arista 7800 y con conmutadores de 'rack' OCP Wedge400 y Minipack2.

   El otro clúster cuenta con una infraestructura Nvidia Quantum2 InfiniBand. Además, ambas soluciones interconectan puntos finales de 400 Gbps y con ambos se puede evaluar la idoneidad y la escalabilidad de los diferentes tipos de interconexión para la capacitación a gran escala.

   Meta ha comentado, por otra parte, que ambos clústeres se construyen usando Grand Teton, una plataforma de 'hardware' GPU abierta y que se basa en diferentes generaciones de sistemas de IA que integran energía, control, computación e interfaces de estructura en un solo chasis, lo que mejora el rendimiento general y térmico, así como la integridad de la señal.

   A nivel de almacenamiento, y teniendo en cuenta que los trabajos de capacitación del equipo de investigación de IA generativa consumen grandes cantidades de datos, la tecnológica ha optado por una interfaz de programación de aplicaciones (API, por sus siglas en inglés) de archivos Linux en el espacio de usuario (FUSE) respaldada por la solución de almacenamiento distribuido Tectonic de Meta, optimizada para medios Flash.

   Esta solución permite que miles de GPU "guarden y carguen puntos de control de forma sincronizada", propocionando de forma simultánea un almacenamiento flexible a escala de exabytes.

   Por otra parte, Meta se ha asociado con Hammerspace para desarrollar en conjunto un sistema de archivos de red (NFS). Así, la combinación de Tectonic con Hammerspace -que se basan en la plataforma de servidor YV3 Sierra Point- ofrece "una velocidad de iteración rápida sin comprometer la escalabilidad".

   Meta ha recordado finalmente que mantiene su compromiso con la innovación abierta en 'software' y 'hardware' de IA, por lo que ha lanzado un programa de asociación para investigadores académicos que deseen desarrollar y compartir de forma responsable estas tecnologías, así como AI Alliance, un grupo de organizaciones centradas en acelerar la innovación responsable dentro de una comunidad abierta.

Leer más acerca de: