AI Infrastructure2026-05-07
OpenAI Blog
OpenAI为AI训练网络引入MRC协议
OpenAI在解决人工智能发展中的最大瓶颈之一——大规模训练集群中的网络可靠性——方面迈出了重要一步。该公司最近通过开放计算项目(OCP)发布了多路径可靠连接(MRC)协议,这是一种新的超级计算机网络标准。
MRC专为千兆级AI工厂设计——这些巨大的数据中心内装有数千个并行工作的GPU,用于训练尖端模型。传统的网络协议在这些环境中常常难以应对,单个链路故障就可能使整个训练运行停滞数小时甚至数天。MRC通过启用多路径数据传输解决了这一问题,这意味着数据可以同时沿着多条冗余路径传输。如果一条路径发生故障,流量会立即重新路由,从而保持训练流水线不间断运行。
随着AI模型规模呈指数级增长,这一创新至关重要。训练单个前沿模型可能需要数万个加速器,而连接它们的网络结构可能成为灾难性故障的潜在点。通过在网络层面提高弹性和性能,MRC有助于确保训练任务完成得更快,并减少浪费的计算周期。
OpenAI决定通过OCP发布MRC值得注意。这标志着其对开放基础设施标准的承诺,允许其他AI实验室和超大规模计算公司采用并在此基础上发展该协议。这可能会加速整个行业的进步,因为可靠的网络将成为共享的基础,而非专有优势。
对于AI从业者来说,MRC代表了一项幕后突破。虽然大多数注意力集中在模型架构和训练算法上,但支撑它们的物理和逻辑基础设施同样至关重要。通过MRC,OpenAI正在应对现代AI中最艰巨的工程挑战之一:以前所未有的规模保持系统运行和数据流通。
