De la innovación a la implementación: AMD impulsa las redes de IA a gran escala con MRC
728 x 90 px
¿Qué se necesita para impulsar los modelos de IA más exigentes del mundo, como los que se utilizan en ChatGPT?
En su nivel más básico, los modelos de IA más exigentes del mundo requieren una enorme capacidad de procesamiento mediante GPU que funcione de forma sincronizada. A medida que los sistemas de IA escalan, la integración eficiente de dicho procesamiento depende cada vez más de la red que los conecta. Cientos de miles de GPU deben mantenerse sincronizadas continuamente, intercambiar datos y recuperarse rápidamente de las interrupciones inevitables.
A esta escala, la red determina directamente cuánta capacidad de procesamiento se puede utilizar.
(Automático aquí)
Hoy, AMD, en colaboración con OpenAI Microsofty otros líderes de la industria, anunciaron que está contribuyendo con Multipath Reliable Connection (MRC) al Open Compute Project ( OCP).), lo que pone este nuevo protocolo de red a disposición de todo el ecosistema. Como colaborador de larga trayectoria en ecosistemas abiertos que impulsan Ethernet para la era de la IA, AMD está ayudando a transformar las redes de IA en una base abierta, programable y lista para la producción para los clientes que desarrollan infraestructura de IA.
Para AMD y la industria en general, MRC representa más que un nuevo protocolo de red para supercomputadoras de vanguardia. Es un paso importante hacia una base más abierta, programable y resiliente para la infraestructura de IA. A medida que los clientes construyen clústeres de IA más grandes en entornos de nube, empresariales, de investigación y de IA soberana, la industria necesita redes que no solo sean rápidas en condiciones ideales, sino también consistentes, adaptables y operativamente prácticas en implementaciones reales.
MRC: Diseñado para la creación de redes de IA a gran escala
MRC está diseñado específicamente para entornos de entrenamiento de IA a gran escala donde los modelos de red tradicionales de ruta única presentan dificultades. Estas cargas de trabajo requieren una comunicación continua y de alta velocidad, e incluso interrupciones breves pueden afectar el progreso general del sistema.
En lugar de enviar el tráfico por una única ruta, MRC distribuye los paquetes simultáneamente a través de múltiples rutas. Esto reduce los puntos críticos de congestión y limita la variación de latencia que puede ralentizar el entrenamiento sincronizado. Cuando inevitablemente se producen fallos, MRC se adapta rápidamente y permite que el tráfico se redirija prácticamente en tiempo real, evitando las demoras asociadas con la recuperación de red tradicional.
En términos prácticos, MRC ayuda a convertir la red en un amortiguador para la infraestructura de IA. En lugar de provocar interrupciones ante cada evento, MRC permite que la red se adapte local y rápidamente para que las cargas de trabajo puedan seguir avanzando. Esto es importante porque el rendimiento a escala de IA no se define únicamente por el ancho de banda máximo, sino por la capacidad útil del acelerador que permanece productiva en condiciones reales.
Contribuciones de AMD: Del desarrollo a la implementación
AMD desempeñó un papel fundamental en la configuración del funcionamiento actual de MRC. AMD fue coautora de la especificación MRC.que define las redes de IA de próxima generación y ha aportado tecnología avanzada de control de congestión para mejorar el rendimiento en condiciones del mundo real.
Más importante aún, esto no es teórico. AMD ha implementado y desplegado MRC, junto con su tecnología de redes, a gran escala en clústeres de prueba con un proveedor líder de servicios en la nube. Esta validación significa que el diseño refleja el rendimiento real de las redes bajo cargas de trabajo de IA sostenidas.
“Si bien las GPU y las CPU siguen impulsando la computación, el verdadero cuello de botella para escalar la IA reside en la red. AMD, junto con OpenAI y Microsoft, anunció MRC, lo que representa un importante avance para la industria. La programabilidad de AMD nos permite convertir rápidamente innovaciones como esta en un rendimiento real a gran escala, donde un rendimiento constante y robusto es más importante que el ancho de banda máximo teórico.” – Krishna Doddapaneni, CVP de Ingeniería, NTSG, AMD
La programabilidad sigue siendo un factor diferenciador clave para AMD, ya que es una de las pocas soluciones de red que combina la programabilidad completa de hardware y software con implementaciones probadas, lo que permite que las redes se adapten a medida que evolucionan las cargas de trabajo. Antes del desarrollo de la especificación MRC, AMD contaba con una implementación preestándar de un protocolo de transporte RoCEv2 mejorado, que evolucionó hasta convertirse en el estándar MRC actual.
Esto se debió a la programabilidad abierta de la tarjeta de red AMD Pensando™ Pollara 400 AI, y dicha programabilidad contribuyó a la flexibilidad para obtener una validación temprana. Al ser AMD una de las primeras y únicas empresas en implementar MRC en una tarjeta de red de 400G, podemos acelerar una transición fluida a nuestra tarjeta de red AMD Pensando “Vulcano” 800G AI, que también admite el protocolo de transporte MRC.
Esta combinación de especificaciones definidas, tecnología aportada e implementación en fase de pruebas sitúa a AMD a la vanguardia del despliegue de MRC en infraestructuras de IA del mundo real.
Redefiniendo el rendimiento de la infraestructura de IA
Para la IA a gran escala, el rendimiento se define por cómo se comportan los sistemas en condiciones reales, no por el ancho de banda máximo. Un rendimiento constante, una gestión eficaz de la congestión y una rápida recuperación ante fallos, manteniendo las GPU sincronizadas y productivas, es lo óptimo para potenciar las redes de IA a gran escala. MRC puede mejorar la eficiencia de los modelos y contribuye a que los protocolos de red que conectan el entrenamiento de IA a gran escala en grandes clústeres de GPU sean altamente fiables.
Al ayudar a definir, desarrollar y contribuir a MRC, AMD, en colaboración con OpenAI, Broadcom, Intel y Microsoft, está impulsando las redes de IA desde el concepto hasta una infraestructura práctica y lista para la producción.
