
Компания NVIDIA представила новую версию Spectrum-X Ethernet с поддержкой технологии Multipath Reliable Connection (MRC), которая решает ключевую проблему в обучении больших AI-моделей. Теперь RDMA-соединения могут распределяться не по одному фиксированному маршруту, а сразу по нескольким, что позволяет избежать задержек и потерь пакетов.
Для AI-инфраструктуры это критически важно: даже кратковременные сетевые узкие места могут обернуться простоями тысяч GPU и миллионами потерянных долларов. Например, если часть кластера простаивает из-за перегруженной сети, весь процесс обучения модели замедляется, несмотря на дорогостоящее оборудование вроде Blackwell или мощные дата-центры.
Технология MRC уже прошла проверку в реальных условиях на базе Spectrum-X, а её спецификация была открыта через Open Compute Project. В разработке участвовали не только NVIDIA, но и такие гиганты, как AMD, Broadcom, Intel, Microsoft и OpenAI. Это подчеркивает, что MRC может стать стандартом для будущих AI-инфраструктур.
NVIDIA позиционирует Spectrum-X с MRC как не менее важную часть AI-фабрики, чем сами GPU или SuperNIC. Теперь сеть должна быть такой же интеллектуальной и адаптивной, как остальные компоненты кластера. В условиях растущих требований к масштабируемости и надежности, такие инновации становятся необходимостью, а не опцией.
Открытие спецификации через Open Compute Project также способствует ускоренному внедрению MRC в отрасли. Это позволяет производителям оборудования и разработчикам ПО быстрее интегрировать технологию в свои решения, что в перспективе может изменить подходы к построению AI-инфраструктур.


