AI Infrastructure2026-05-07
OpenAI Blog
OpenAI 為 AI 訓練網路推出 MRC 協定
OpenAI 為解決人工智慧發展中最大的瓶頸之一——大型訓練叢集中的網路可靠性——邁出了重要一步。該公司最近透過開放運算專案(OCP)發布了多路徑可靠連接(MRC)協定,這是一種新的超級電腦網路標準。
MRC 專為超大規模 AI 工廠設計——這些巨大的數據中心內有成千上萬個 GPU 並行工作,以訓練尖端模型。傳統的網路協定在這些環境中經常遇到困難,單一鏈路故障就可能使整個訓練過程停擺數小時甚至數天。MRC 透過啟用多路徑數據傳輸來解決這個問題,這意味著數據可以同時沿著多條冗餘路徑傳輸。如果一條路徑發生故障,流量會立即重新路由,從而使訓練管道不間斷地持續運行。
這項創新至關重要,因為 AI 模型的規模呈指數級增長。訓練單一邊界模型可能需要數萬個加速器,而連接它們的網路結構就成了一個潛在的災難性故障點。透過在網路層面提高韌性和效能,MRC 有助於確保訓練任務更快完成,並減少浪費的計算週期。
OpenAI 決定透過 OCP 發布 MRC 值得注意。這表明其致力於開放基礎架構標準,允許其他 AI 實驗室和超大規模運算公司採用並在此基礎上進一步開發該協定。這可能會加速整個產業的進步,因為可靠的網路將成為共享的基礎,而非專有優勢。
對於 AI 從業者來說,MRC 代表了一項幕後的突破。雖然大多數注意力集中在模型架構和訓練演算法上,但支撐它們的物理和邏輯基礎架構同樣至關重要。透過 MRC,OpenAI 正在解決現代 AI 中最艱鉅的工程挑戰之一:以前所未有的規模保持系統運行和數據流通。
