OpenAI 為 AI 訓練網路推出 MRC 協定

OpenAI 為解決人工智慧發展中最大的瓶頸之一——大型訓練叢集中的網路可靠性——邁出了重要一步。該公司最近透過開放運算專案（OCP）發布了多路徑可靠連接（MRC）協定，這是一種新的超級電腦網路標準。 MRC 專為超大規模 AI 工廠設計——這些巨大的數據中心內有成千上萬個 GPU 並行工作，以訓練尖端模型。傳統的網路協定在這些環境中經常遇到困難，單一鏈路故障就可能使整個訓練過程停擺數小時甚至數天。MRC 透過啟用多路徑數據傳輸來解決這個問題，這意味著數據可以同時沿著多條冗餘路徑傳輸。如果一條路徑發生故障，流量會立即重新路由，從而使訓練管道不間斷地持續運行。這項創新至關重要，因為 AI 模型的規模呈指數級增長。訓練單一邊界模型可能需要數萬個加速器，而連接它們的網路結構就成了一個潛在的災難性故障點。透過在網路層面提高韌性和效能，MRC 有助於確保訓練任務更快完成，並減少浪費的計算週期。 OpenAI 決定透過 OCP 發布 MRC 值得注意。這表明其致力於開放基礎架構標準，允許其他 AI 實驗室和超大規模運算公司採用並在此基礎上進一步開發該協定。這可能會加速整個產業的進步，因為可靠的網路將成為共享的基礎，而非專有優勢。對於 AI 從業者來說，MRC 代表了一項幕後的突破。雖然大多數注意力集中在模型架構和訓練演算法上，但支撐它們的物理和邏輯基礎架構同樣至關重要。透過 MRC，OpenAI 正在解決現代 AI 中最艱鉅的工程挑戰之一：以前所未有的規模保持系統運行和數據流通。

OpenAI 為 AI 訓練網路推出 MRC 協定

相关资讯