OpenAI y AMD mejoran el rendimiento de las redes para acelerar el entrenamiento de modelos de IA con el protocolo MRC

Representación de un superordenador por AMD.
Representación de un superordenador por AMD. - AMD
Europa Press PortalTIC
Publicado: jueves, 7 mayo 2026 13:42

   MADRID, 7 May. (Portaltic/EP) -

   OpenAI, AMD, Broadcom, Intel, Microsoft y Nvidia se han asociado para desarrollar el protocolo Multipath Reliable Connection (MRC), que mejora el rendimiento y la resiliencia de las redes de GPU en grandes clústeres de entrenamiento para acelerar el entrenamiento de inteligencia artificial (IA) a gran escala, ya disponible para toda la industria a través del Open Compute Project (OCP).

   El entrenamiento de modelos de vanguardia depende de redes de supercomputadoras confiables que puedan transferir datos rápidamente entre GPU de forma sincronizada. Sin embargo, a medida que los sistemas de IA escalan y aumentan los clústeres, cada vez hay más dependencia hacia estas redes, que deben funcionar de forma rápida y eficiente, coordinar cientos de miles de GPU de forma muy sincronizada, intercambiar millones de datos y recuperarse rápidamente de las interrupciones.

   Teniendo en cuenta la importancia de la red, que puede determinar directamente cuánta capacidad de procesamiento se puede utilizar, compañías líderes en la industria de la IA se han unido a OpenAI para desarrollar un protocolo pensado para acelerar el entrenamiento de IA mejorando el rendimiento y la resiliencia de la red de GPU en grandes clústeres de entrenamiento.

   Concretamente, se trata del protocolo MRC, del que forman parte tecnológicas como AMD, Broadcom, Intel, Microsoft y Nvidia, que se han unido al desarrollo de esta iniciativa durante un periodo de dos años, ahora disponible para que toda la industria pueda utilizarlo a través del Open Compute Project (OCP), como ha detallado OpenAI en un comunicado.

    Este protocolo está diseñado específicamente para entornos de entrenamiento de IA a gran escala ofreciendo una comunicación continua y de alta velocidad para evitar interrupciones. Para ello, como ha explicado la tecnológica, en lugar de enviar tráfico por una única ruta, MRC distribuye los paquetes simultáneamente a través de múltiples rutas.

   Así el protocolo está integrado en las interfaces de red de 800 Gb/s más recientes que permiten distribuir una única transferencia "a través de cientos de rutas", sorteando fallos "en microsegundos" y ejecutando planos de control de red más sencillos.

   Esto "reduce los puntos críticos de congestión de datos" y limita la variación de latencia que puede ralentizar el entrenamiento sincronizado, como ha explicado por su parte AMD en un comunicado. Con ello, cuando se producen fallos, el protocolo MRC permite que la red se adapte rápidamente y redirigiendo el tráfico "prácticamente en tiempo real".

   "En términos prácticos, MRC ayuda a convertir la red en un amortiguador para la infraestructura de IA. En lugar de provocar interrupciones ante cada evento, MRC permite que la red se adapte local y rápidamente para que las cargas de trabajo puedan seguir avanzando", ha detallado AMD.

   OpenAI también ha especificado que el protocolo MRC se apoya en el estándar de RDMA sobre Ethernet Convergente (RoCE) de la InfiniBand Trade Association (IBTA), además de basarse en técnicas desarrolladas por el Ultra Ethernet Consortium (UEC).

   Con todo ello, MRC ya se ha implementado en todos los superordenadores NVIDIA GB200 más grandes de OpenAI, utilizados para entrenar modelos de vanguardia, así como en los superordenadores Fairwater de Microsoft.

   Asimismo, la especificación MRC ya está disponible como una contribución al Open Compute Project (OCP) para que la comunidad la utilice y desarrolle.

Contador

Últimas noticias sobre estos temas

Contenido patrocinado