中國電信基於 800GWDM 現網完成業界首例千卡分散式無損智算網驗證

WBOY
發布: 2024-09-03 07:30:42
原創
753 人瀏覽過

中国电信基于 800GWDM 现网完成业界首例千卡分布式无损智算网验证

1. 目前,隨著智算卡數達到千卡、甚至萬卡,所需頻寬往往高達百T 比特級、甚至超P 比特級。因此,光傳輸系統的大頻寬、高可靠與高效率的特性是確保分散式訓練高算效的關鍵。

2. 中國電信研究院、中國電信北京公司、天翼雲公司共同在中國電信現網基於800G C+L 技術,為1024 卡規模的分散式集群提供大容量頻寬,實現120 公里千億參數大模型分散式訓練,效能達到集中訓練的95% 以上。

3. 針對資料傳輸的大頻寬問題,中國電信採用高階調變格式的單波長800G 技術以提高頻譜效率,配合目前的業界熱點的C+L 波段技術實現超大傳輸頻寬,在中國電信武清與潤澤機房之間採用華為公司傳輸設備,透過多次環回建構了大頻寬互聯的智算驗證網,距離達到120km。

4. 針對資料傳輸的高可靠問題,中國電信完成了鏈路誤碼、波長故障、光纖故障等異常測試試驗,結果表明,一個800G 業務波中斷會導致超40% 的算效降低,而百毫秒以上光纖故障會導致算效大幅下降甚至訓練中斷。從官方獲悉,採用 WSON 重路由恢復技術,此次在兩點間將重路由恢復時間控制在 50ms 以內,可保證分散式智算業務的高可靠互聯,最大程度釋放算效。

5. 針對傳輸鏈路的高效率問題,中國電信提出分鐘級波長動態拆建解決方案來實現算與網的協同分時復用,有效提升網路資源利用率。此驗證為跨地域、跨層級、跨主體高可靠的算力協同調度奠定基礎。

以上是中國電信基於 800GWDM 現網完成業界首例千卡分散式無損智算網驗證的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:ithome.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!