MRC (多路径可靠连接) 是一种新的传输协议,率先在 NVIDIA Spectrum-X 以太网硬件上完成验证和优化,现已向业界开放。
在构建全球最强大的 AI 工厂的竞争中,网络必须与 AI 本身的发展宏图相匹配。 NVIDIA Spectrum-X 以太网横向扩展基础设施,作为当今顶尖的 AI 网络技术,稳居这场竞争的最前沿,众多行业领军企业已采用该方案部署,在性能、可靠性和扩展性方面均不甘妥协。 其中包括 OpenAI、Microsoft 和 Oracle。 NVIDIA、微软以及 OpenAI 等企业共同打造 MRC (多路径可靠连接) 协议 ,一种新的 RDMA 传输协议,进一步夯实行业中的领先地位。MRC 支持单个 RDMA 连接在多个网络路径上分发流量,从而提高吞吐量、负载平衡和可用性,以满足大规模 AI 训练网络的需求。 可以将其理解为用巧妙布局的街道网格系统,取代贯穿城镇的单车道公路,并与实时路况应用相配合,使驾驶员能够自动绕过拥堵路段和封闭道路。 OpenAI 工业计算负责人 Sachin Katti 表示 “在 Blackwell 架构中部署 MRC 非常成功,这得益于与 NVIDIA 的强强合作。MRC 采用端到端方案,帮助我们避免许多典型的网络相关减速和中断,并保持大规模前沿训练运行的效率。” 此外,微软和 NVIDIA 保持长期深度合作,致力于推进下一代 AI 所需的基础设施。微软的 Fairwater 以及 Oracle Cloud Infrastructure (OCI) Abilene 数据中心是两个专为训练和部署前沿大语言模型 (LLM) 而打造的超大规模 AI 工厂,它们依托 MRC 满足性能、规模和效率的要求。NVIDIA Spectrum-X 以太网完美契合此类场景,为大规模 AI 模型和应用,提供所需的稳定可靠的网络基础。 率先在生产环境中经过验证,性能在 NVIDIA Spectrum-X 以太网硬件上得到优化,现已通过 Open Compute Project 发布为开放规范,MRC 展示了 Spectrum-X 以太网平台的强大能力:专门优化的硬件、深度遥测和智能网络控制协同工作,将新协议 (一套控制数据如何在网络中两个系统之间移动的规则) 从概念转化为超大规模 AI 生产。 MRC 通过在所有可用路径上实现流量负载均衡,大幅提升 GPU 利用率,使每个 GPU 在整个训练过程中获得充足的带宽。即使在拥塞情况下,它也能通过实时动态规避超载路径来维持高带宽传输。 当发生数据丢失时,智能重传技术可实现快速精确的恢复,最大限度地降低对长期运行作业的短暂中断的影响,从而降低 GPU 空闲时间。 管理员还可以对流量路径进行精细的可视性和控制,从而简化运维并加速大规模系统上的故障排除。 在 Spectrum-X 以太网上部署的 MRC,经过优化和设计,助力大规模系统的可靠性。其故障旁路技术可以在几微秒内检测到网络路径故障,并自动通过硬件方式重新路由流量。 这项故障旁路技术对于 AI 训练集群至关重要,因为在这些集群中,数千个 GPU 必须保持同步,即使是短暂的网络中断也会减慢或中断整个训练作业。Spectrum-X 以太网通过硬件级响应速度来防止这种情况,使流量沿着精确的路径在超大规模 AI 网络中流动。 实现十亿瓦级 AI 工厂的另一项关键创新是多平面网络设计,OpenAI 部署 Spectrum-X 以太网并应用 MRC 技术来实现该设计。多平面网络由多个独立的网络或平面组成,每个平面都提供 GPU 之间的独立通信路径且互为备用。 NVIDIA Spectrum-X 多平面功能通过支持跨平面的硬件加速负载均衡来增强这种网络架构,在不牺牲性能的情况下提高了可靠性和可扩展性。这种设计继续保持可预测的低延迟,同时扩展到数十万个 GPU。 借助 Spectrum-X 以太网,客户可以自由选择多样的 RDMA 传输模型。Spectrum-X 以太网自适应 RDMA 和 MRC 传输协议以及其他自定义协议,均可原生运行在 NVIDIA ConnectX SuperNIC 以及 Spectrum-X 以太网交换机组成的网络中,并支持多平面网络设计以实现超大规模扩展。 因此,为当今大型 AI 集群提供支持的 Spectrum-X 以太网硬件和软件基础设施为客户提供了充分的灵活性,使他们能够为自己的工作负载选择合适的传输方式。 MRC 传输协议是一个新的行业典型示例,使用 Spectrum-X 以太网作为灵活可组合的平台,与现代 AI 基础设施的整个领域进行深度集成。 随着 AI 工厂规模的不断扩大,网络需要做的不仅仅是快速传输数据,还需具备智能化、高可靠性且基于开放标准。NVIDIA Spectrum-X 以太网在三方面均表现出色,通过 MRC,持续将先进的 AI 网络推向新高度。 MRC 由 NVIDIA 与 AMD、博通、英特尔、微软和 OpenAI 合作开发。