首頁 科技週邊 人工智慧 用DDC來建構AI網路?這可能只是一個美好的幻覺

用DDC來建構AI網路?這可能只是一個美好的幻覺

May 11, 2023 pm 01:46 PM
ai網路

用DDC來建構AI網路?這可能只是一個美好的幻覺

ChatGPT、AIGC、大模型……一系列眼花撩亂的名詞橫空出世,AI商業價值引發社會的高度關注。隨著訓練模型規模的成長,支撐AI算力的資料中心網路也成為熱點。提升算力效率,建構高效能網路…大廠們各顯神通,努力在以太產業宏圖上開拓AI網路的「F1新賽道」。

在這場AI的軍備競賽中,DDC高調出鏡,一夕之間似乎成為了建構高性能AI網路革命性技術的代名詞。但真如看上去那麼美好嗎?讓我們詳細分析,冷靜判斷。

始於2019年,DDC的本質是以盒盒路由器取代框式路由器

隨著DCN流量的快速成長,DCI網路升級需求日益迫切。然而,DCI路由器框式設備擴容能力受機框大小限制;同時設備功耗大,擴容機框時對機櫃電力、散熱等要求較高,改造成本高。在此背景下,2019年AT&T向OCP提交了基於商用晶片的盒式路由器規範,提出了DDC(Disaggregated Distributed Chassis)的概念。簡單來說,DDC就是使用若干個低功耗盒式設備組成的群集替換框式設備業務線卡和網板等硬體單元,盒式設備間透過線纜互連。整個叢集透過集中式或分散式的NOS(網路作業系統)管理,以期突破DCI單框裝置效能和功耗瓶頸的問題。

用DDC來建構AI網路?這可能只是一個美好的幻覺

DDC宣稱的優點包括:

突破框式裝置擴充限制:透過多裝置叢集實現擴容,不受機框尺寸限制;

降低單點功耗:多台低功耗的盒式設備分散部署,解決了功耗集中的問題,降低機櫃電力和散熱的要求;

提升頻寬利用率:與傳統的ETH網Hash交換相比,DDC採用訊號元(Cell)交換,基於Cell進行負載平衡,有助於於提升頻寬利用率;

用DDC來建構AI網路?這可能只是一個美好的幻覺

緩解丟包:使用裝置大快取能力滿足DCI場景高收斂比要求。先透過VOQ(Virtual Output Queue)技術先將網路中接收到的封包分配到不同的虛擬出佇列中,再透過Credit通訊機制確定接收端有足夠的快取空間後再發送這些報文,從而減少由於出口壅塞帶來的丟包。

用DDC來建構AI網路?這可能只是一個美好的幻覺

DDC方案在DCI場景僅曇花一現

想法看起來很完美,可落地卻並非一帆風順。 DriveNets公司的Network Cloud產品是業界第一個、也是唯一一個商用的DDC解決方案,整套軟體適配通用白盒路由器。但至今在市面上未見到明確的銷售案例。 AT&T作為DDC架構方案提出者,在2020年自建的IP骨幹網路中灰階部署了DDC方案,但後續基本上也沒有太多聲響。為什麼這朵水花並沒有掀起多大的浪呢?這應該歸咎於DDC存在的四大缺陷。

缺陷一:不可靠的設備管控平面

框式設備各部件透過硬體高度整合、可靠度極高的PCIe匯流排實現控制管理面互聯,並設備都使用雙主機板設計,確保設備的管控平面高可靠。 DDC則使用「壞了就換」的易損模組線纜互連,構築多設備集群並支撐集群管控平面運作。雖然突破了框式設備的規模,但這種不可靠的互聯方式為管控面帶來了極大風險。兩台設備堆疊,異常時會出現腦裂、表項不同步等問題。對於DDC這不可靠的管控平面而言,這種問題更容易發生。

缺陷二:高度複雜的裝置NOS

#

SONiC社群已有基於VOQ架構下的分散式轉送機框設計,並持續迭代補充與修改以便於滿足對DDC的支援。雖然白盒確實已經有很多落地案例,但「白框」卻少有人挑戰。建構一個拉遠的“白框”,不僅需要考慮集群內多設備的狀態、表項資訊的同步和管理,還需要考慮到版本升級、回滾、熱補丁等多個實際場景在多設備下的系統化實現。 DDC對集群的NOS複雜度要求指數級提升,目前業界沒有成熟商用案例,存在很大的開發風險。

缺陷三:可維護方案缺失

網路是不可靠的,因此ETH網路做了大量可維護和可定位的特性或工具,例如耳熟能詳的INT、MOD。這些工具可以對特定的流進行監控,並識別丟包的流特徵,從而進行定位排障。但DDC使用的信元僅是報文的一個切片,沒有相關IP等五元組信息,無法關聯到具體的業務流。 DDC一旦出現丟包問題,目前的運維手段無法定位到丟包點,維護方案嚴重缺失。

缺陷四:成本提升

DDC為突破機框尺寸限制,需要將叢集的各裝置透過高速的線纜/模組連網;連網成本遠高於框式設備線路卡和網板之間透過PCB走線和高速連結器互聯,且規模越大互聯成本越高。

同時為降低單點功耗集中,透過線纜/模組互聯的DDC叢集整體功耗高於框式裝置。相同一代的晶片,假設DDC集群設備之間以模組互聯,集群功耗較框式設備高30%。

拒絕炒剩飯,DDC方案同樣不適用於AI網絡

DDC方案的不成熟和不完善,在DCI場景上已黯然退場。但目前在AI風口下竟然死灰復燃。筆者認為,DDC同樣不適用於AI網絡,接下來我們將詳細分析。

AI網路的兩大核心訴求:高吞吐、低時延

AI網路支撐的業務其特徵是流數量少,單一流的頻寬大;同時流量不均勻,常出現多打一或多打多的情況(All-to-All和All-Reduce)。所以極易出現流量負載不均、連結利用率低、頻繁的流量壅塞所導致的丟包等問題,無法充分釋放算力。

DDC只解決了Hash問題,同樣帶來眾多缺陷

DDC使用信元交換將封包切片成Cells,並根據可達資訊採用輪詢機制發送。流量負載會較為平衡的分配到每一條鏈路,實現頻寬的充分利用,並較好解決了Hash問題。但在這個之外,DDC在AI場景依然存在四大缺陷。

缺陷一:硬體要求特定設備,封閉專網不通用

DDC架構中的訊號元交換和VOQ技術,皆依賴特定硬體晶片實作。目前DCN網路設備均無法利舊使用。 ETH網的快速發展,得益於其即插即用的便利性和通用化、標準化。 DCC依賴硬體並透過私有的交換協定建構了一張封閉的專網,並不通用。

缺陷二:大快取設計增加網路成本,不適合大規格DCN組網

DDC方案若進入DCN,除去高昂的連網成本外,還背負著晶片大快取的成本負擔。 DCN網路目前皆使用小型快取設備,最大僅64M;而源自DCI場景的DDC方案通常晶片的HBM達到上GB。大規模的DCN網路相較DCI而言,更在意網路成本。

缺陷三:網路靜態時延增加,不符合AI場景

作為釋放算力的高效能AI網絡,目標時縮短業務的完成時間。 DDC的大快取能力將封包緩存,勢必增加硬體轉送靜態延遲。同時訊號元交換,對封包的切片、封裝和重組,同樣增加網路轉送延遲。透過測試資料比較,DDC較傳統ETH網轉送時延增大1.4倍。

缺陷四:隨著DC規模增加,DDC不可靠的問題會更劣化

相對DDC在DCI場景取代框式裝置的場景而言, DDC進入DCN需要滿足更大的一個集群,至少滿足一個網路POD。這意味著這個拉遠的「框「,各個部件距離更遠。那麼對於這個集群的管控平面的可靠性、設備網路NOS的同步管理、網路POD級的運維管理要求更高。 DDC的各種缺陷將會裂解。

DDC最多是個過渡方案

當然,任何問題都不是不能解決的。接受部分約束,對於這種特定場景,很容易成為各大廠「炫技」的舞台。網路追求可靠、極簡、高效,厭棄複雜度。特別是目前「減員增效」的大背景下,確實要考慮下DDC落地的代價。

Faced with the problem of network load sharing in AI scenarios, many cases have been solved through global static or dynamic orchestration of forwarding paths. In the future, it can also be solved through the network card on the end side based on Packet Spray and out-of-order Solved by rearrangement. Therefore, DDC is at best a short-term transition plan.

After a deep dive, the driving force behind DDC may be DNX

Finally, let’s talk about the mainstream network chip companyBroadcom (Broadcom), we compare The two familiar product series are StrataXGS and StrataDNX. XGS continues the high-bandwidth, low-cost route, quickly launches small cache, large-bandwidth chip products, and continues to dominate the DCN network occupancy rate. StrataDNX, however, carries the cost of a large cache and continues the myth of VOQ cell exchange, hoping that DDC will enter DC to continue its life. There seems to be no case in North America. The domestic DDC may be the last straw for DNX.

Today, a large number of hardware facilities such as GPUs have been restricted to a certain extent in our country. Do we really need DDC? Let’s leave more opportunities for domestically produced devices!

以上是用DDC來建構AI網路?這可能只是一個美好的幻覺的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

最佳AI藝術生成器(免費付款)創意項目 最佳AI藝術生成器(免費付款)創意項目 Apr 02, 2025 pm 06:10 PM

本文回顧了AI最高的藝術生成器,討論了他們的功能,對創意項目的適用性和價值。它重點介紹了Midjourney是專業人士的最佳價值,並建議使用Dall-E 2進行高質量的可定製藝術。

開始使用Meta Llama 3.2 -Analytics Vidhya 開始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

最佳AI聊天機器人比較(Chatgpt,Gemini,Claude&更多) 最佳AI聊天機器人比較(Chatgpt,Gemini,Claude&更多) Apr 02, 2025 pm 06:09 PM

本文比較了諸如Chatgpt,Gemini和Claude之類的頂級AI聊天機器人,重點介紹了其獨特功能,自定義選項以及自然語言處理和可靠性的性能。

頂級AI寫作助理來增強您的內容創建 頂級AI寫作助理來增強您的內容創建 Apr 02, 2025 pm 06:11 PM

文章討論了Grammarly,Jasper,Copy.ai,Writesonic和Rytr等AI最高的寫作助手,重點介紹了其獨特的內容創建功能。它認為Jasper在SEO優化方面表現出色,而AI工具有助於保持音調的組成

向員工出售AI策略:Shopify首席執行官的宣言 向員工出售AI策略:Shopify首席執行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

AV字節:Meta' llama 3.2,Google的雙子座1.5等 AV字節:Meta' llama 3.2,Google的雙子座1.5等 Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

10個生成AI編碼擴展,在VS代碼中,您必須探索 10個生成AI編碼擴展,在VS代碼中,您必須探索 Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

選擇最佳的AI語音生成器:評論的頂級選項 選擇最佳的AI語音生成器:評論的頂級選項 Apr 02, 2025 pm 06:12 PM

本文評論了Google Cloud,Amazon Polly,Microsoft Azure,IBM Watson和Discript等高級AI語音生成器,重點介紹其功能,語音質量和滿足不同需求的適用性。

See all articles