適合驅動AIGC的網路的特徵是什麼?
2023年,是AI人工智慧技術全面爆紅的一年。
以ChatGPT、GPT-4、文心一言為代表的AIGC大模型,集文本撰寫、代碼開發、詩詞創作等功能於一體,展現出了超強的內容生產能力,帶給人們極大震撼。
作為一個通訊老人,除了AIGC大模型本身之外,小棗君更加關注的,是模型背後的通訊技術。到底是一張怎樣的強大網絡,在支持著AIGC的運作?此外,AI浪潮的全面來襲,將對傳統網路帶來什麼樣的變革?
█ AIGC,到底需要多大的算力?
眾所周知,數據、演算法和算力,是人工智慧發展的三大基本要素。
前面提到的幾個AIGC大模型,之所以那麼厲害,不僅是因為它們背後有大量的資料投餵,也因為演算法在不斷進化升級。更重要的是,人類的算力規模,已經發展到一定程度了。強大的算力基礎設施,完全能夠支撐AIGC的運算需求。
AIGC發展到現在,訓練模型參數從千億級飆升到了兆級。為了完成這麼大規模的訓練,底層支撐的GPU數量,也達到了萬卡等級規模。
以ChatGPT為例,他們使用了微軟的超算基礎設施進行訓練,據說動用了10000塊V100 GPU,組成了一個高頻寬叢集。一次訓練,需要消耗算力約3640 PF-days(即每秒1千萬億次計算,運行3640天)。
一塊V100的FP32算力,是0.014 PFLOPS(算力單位,等於每秒1千萬億次的浮點運算)。一萬塊V100,那就是140 PFLOPS。
也就是說,如果GPU的使用率是100%,那麼,完成一次訓練,就要3640÷140=26(天)。
GPU的利用率是不可能達到100%,如果以33%算(OpenAI提供的假設利用率),那就是26再翻三倍,等於78天。
可以看出,GPU的算力、GPU的使用率,對大模型的訓練有很大影響。
那麼問題來了,影響GPU利用率的最大因素,是什麼呢?
答案是:網路。
一萬甚至幾萬塊的GPU,作為計算集群,與儲存集群進行資料交互,需要極大的頻寬。此外,GPU叢集進行訓練運算時,都不是獨立的,而是混合並行。 GPU之間,有大量的資料交換,也需要極大的頻寬。
如果網路不給力,數據傳輸慢,GPU就要等待數據,導致利用率下降。利用率下降,訓練時間就會增加,成本也會增加,使用者體驗會變差。
業界曾經做過一個模型,計算出網路頻寬吞吐能力、通訊時延與GPU利用率之間的關係,如下圖所示:
大家可以看到,網路吞吐能力越強,GPU利用率越高;通訊動態時延越大,GPU利用率越低。
一句話,沒有好網絡,別玩大模型。
█ 怎樣的網絡,才能支撐AIGC的運作?
為了因應AI叢集運算對網路的調整,業界也是想了不少辦法的。
傳統的因應策略,主要是三種:Infiniband、RDMA、框式交換器。我們分別來簡單了解一下。
Infiniband網路
Infiniband(直譯為「無限頻寬」技術,縮寫為IB)組網,搞數據通訊的童鞋應該不會陌生。
這是目前組成高效能網路的最佳途徑,頻寬極高,可實現無擁塞和低時延。 ChatGPT、GPT-4所使用的,據說就是Infiniband組網。
如果說Infiniband網路有什麼缺點的話,那就是一個字-貴。相較於傳統乙太網路的組網,Infiniband組網的成本會貴好幾倍。這項技術比較封閉,業界目前成熟的供應商只有1家,用戶沒什麼選擇權。
- RDMA網路
#RDMA的全名為Remote Direct Memory Access(遠端直接數據訪問)。它是一種新型的通訊機制。在RDMA方案裡,應用程式的數據,不再經過CPU和複雜的作業系統,而是直接和網路卡通信,不僅大幅提升了吞吐能力,也降低了延遲。
RDMA最早提出時,是承載在InfiniBand網路中的。現在,RDMA逐漸移植到了乙太網路上。
目前,高效能網路的主流網路方案,是基於RoCE v2(RDMA over Converged Ethernet,基於融合乙太網路的RDMA)協定來組成支援RDMA的網絡。
這個方案有兩個重要的搭配技術,分別是PFC(Priority Flow Control,基於優先權的流量控制)和ECN(Explicit Congestion Notification,明確擁塞通知)。它們是為了避免連結中的擁塞而產生的技術,但是,頻繁被觸發,反而會導致發送端暫停發送,或降速發送,進而拉低通訊頻寬。 (下文也會提到它們)
- 框式交換器
單POD組網
#多層POD群組網,規模可以變得更大。
在多層POD網路中,NCF裝置要犧牲一半的SerDes,用來連接第二層的NCF。所以,此時單POD採用48台NCP作為接入,下行共18個400G接口。
多POD群組網
單一POD內,可以支撐864個400G介面(48×18)。透過橫向增加POD(8個),實現規模擴容,整體最大可支撐6912個400G網路連接埠(864×8)。
NCP上行40個200G,接POD內40台NCF。 POD內NCF採用48個200G接口,48個200G接口分為12個一組上行到第二級的NCF。第二級NCF採用40個平面(Plane),每個平面4台NCF-P,分別對應在POD內的40台NCF。
整個網路的POD內實現了1.1:1的超速比(北向頻寬大於南向頻寬),而在POD和二級NCF之間實現了1: 1的收斂比(南向頻寬/北向頻寬)。
#█ DDC的技術特性
站在規模和頻寬吞吐的角度,DDC已經可以滿足AI大模型訓練對於網路的需求。
然而,網路的運作過程是複雜的,DDC也需要在時延對抗、負載平衡、管理效率等方面有所提升。
- 基於VOQ Cell的轉送機制,對抗丟包
網路在運作的過程中,可能會出現突發流量,造成接收端來不及處理,造成壅塞和丟包。
為了回應這種情況,DDC採取了基於VOQ Cell的轉送機制。
#從網路接收傳送端到封包之後,會分類到VOQ(虛擬輸出隊列)中儲存。
在傳送封包前,NCP會先傳送Credit封包,確定接收端是否有足夠的快取空間處理這些封包。
如果接收端OK,則將封包分片成Cells(封包的小切片),並且動態負載平衡到中間的Fabric節點(NCF)。
如果接收端暫時沒能力處理封包,封包會在傳送端的VOQ中暫存,並不會直接轉送到接收端。
在接收端,這些Cells會進行重組和存儲,進而轉送到網路中。
切片後的Cells,將採用輪詢的機制傳送。它能夠充分利用到每一條上行鏈路,確保所有上行鏈路的傳輸資料量近似相等。
#輪詢機制
#這樣的機制,充分利用了緩存,可以大幅減少丟包,甚至不會產生丟包狀況。資料重傳減少了,整體通訊延遲更穩定更低,從而可以提高頻寬利用率,進而提升業務吞吐效率。
- PFC單跳部署,避免死鎖
#前面我們提到,RDMA無損網路中引入了PFC(基於優先順序的流量控制)技術,進行流量控制。
簡單來說,PFC就是在一條乙太網路鏈路上創建8 個虛擬通道,並為每個虛擬通道指定對應優先級,允許單獨暫停和重啟其中任一虛擬通道,同時允許其它虛擬通道的流量無中斷通過。
#PFC可以實現基於佇列的流量控制,但是,它也存在一個問題,那就是死鎖。
所謂死鎖,就是多個交換器之間,因為環路等原因,同時出現了擁塞(各自連接埠快取消耗超過了閾值),又都在等待對方釋放資源,因而導致的「僵持狀態」(所有交換器的資料流永久堵塞)。
DDC的網路下,就不存在PFC的死鎖問題。因為,站在整個網路的角度,所有NCP和NCF可以看成一台設備。對AI伺服器來說,整個DDC,就是一個交換機,不存在多級交換器。所以,就不存在死鎖。
#另外,根據DDC的資料轉送機制,可在介面處部署ECN(顯式擁塞通知)。
ECN機制下,網路設備一旦偵測到RoCE v2流量出現了擁塞(內部的Credit和快取機制無法支撐突發流量),就會傳送CNP(Congestion Notification Packets,壅塞通知訊息),要求降速。
- 分散式OS,提升可靠性
#最後再來看看管理控制平面。
前面我們提到,在DDC架構中,框式裝置的管理功能變成了NCC(網路雲端控制器)。 NCC非常重要,如果採用單點式的方式,萬一出現問題,就會導致整網故障。
為了避免這樣的問題,DDC可以取消NCC的集中控制面,建構分散式OS(作業系統)。
基於分散式OS,可以基於SDN維運控制器,透過標準介面(Netconf、GRPC等)配置管理設備。這樣的話,每台NCP和NCF獨立管理,有獨立的控制面和管理面,大大提升了系統的可靠性,也更方便部署。
█ DDC的商業進展
RG-X56-96F1交換器的高度為4U,提供96個200G的Fabric內聯口,8個風扇和4個電源供應器。
據悉,銳捷網路還會持續研發、推出400G埠形態的產品。
█ 最後的話
AIGC的崛起,已經掀起了互聯網產業的新一輪科技革命。
我們可以看到,越來越多的企業,正在加入這個賽道,參與競爭。這意味著,網路基礎設施的升級,迫在眉睫。
DDC的出現,將大幅提升網路基礎設施的能力,不僅能有效應對AI革命對網路基礎設施的挑戰,更將協助整個社會的數位轉型,加速人類數智時代的全面到來。
以上是適合驅動AIGC的網路的特徵是什麼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)
![WLAN擴充模組已停止[修復]](https://img.php.cn/upload/article/000/465/014/170832352052603.gif?x-oss-process=image/resize,m_fill,h_207,w_330)
如果您的Windows電腦上的WLAN擴充模組出現問題,可能會導致您與網際網路中斷連線。這種情況常常讓人感到困擾,但幸運的是,本文提供了一些簡單的建議,可以幫助您解決這個問題,讓您的無線連線重新正常運作。修復WLAN擴充模組已停止如果您的Windows電腦上的WLAN可擴充性模組已停止運作,請依照下列建議進行修復:執行網路和Internet故障排除程式停用並重新啟用無線網路連線重新啟動WLAN自動設定服務修改電源選項修改高級電源設定重新安裝網路適配器驅動程式運行一些網路命令現在,讓我們來詳細看

我們在連接網路時需要使用正確的dns才可以上網。同理,如果我們使用了錯誤的dns設定就會提示dns伺服器錯誤了,這時候我們可以嘗試在網路設定中選擇自動取得dns來解決,以下就一起來看下具體解決方法吧。 win11網路dns伺服器錯誤怎麼辦方法一:重新設定DNS1、首先,點選工作列中的開始進入,在其中找到並點選「設定」圖示按鈕。 2、然後點選左側欄中的「網路&Internet」選項指令。 3、然後在右側找到「乙太網路」選項,點選進入。 4、之後,點選DNS伺服器指派中的“編輯”,最後將DNS設定為“自動(D

什麼是「網路錯誤下載失敗」問題?在我們深入研究解決方案之前,讓我們先了解「網路錯誤下載失敗」問題的含義。當下載過程中網路連線中斷時,通常會發生此錯誤。它可能由於各種原因而發生,例如互聯網連接薄弱、網路擁塞或伺服器問題。發生此錯誤時,下載將停止,並顯示錯誤訊息。如何修復失敗的網路錯誤下載?在存取或下載必要的文件時,遇到「網路錯誤下載失敗」可能會成為障礙。無論您是使用Chrome等瀏覽器還是Google雲端硬碟和Google相簿等平台,都會彈出此錯誤,從而造成不便。以下是幫助您導覽和解決此問題的分

如果WDMyCloud未在Windows11的網路上顯示,這可能是一個大問題,尤其是當您將備份或其他重要檔案儲存在其中時。對於經常需要存取網路儲存的用戶來說,這可能是一個大問題,因此在今天的指南中,我們將向您展示如何永久解決此問題。為什麼WDMyCloud未顯示在Windows11網路上?您的MyCloud裝置、網路介面卡或網路連線未正確配置。電腦上未安裝SMB功能。 Winsock的臨時故障有時會導致此問題。如果我的雲端未顯示在網路上,我該怎麼辦?在我們開始修復問題之前,您可以執行一些初步檢查:

這篇文章將介紹Win10系統網路顯示地球標誌但無法上網的解決方法。文章將提供詳細的操作步驟,幫助讀者解決Win10網路顯示地球無法上網的問題。方法一:直接重啟先檢查網路線是否沒插好,寬頻是否欠費,路由器或光貓可能會卡死,這時需重新啟動路由器或光貓。假如目前電腦沒有重要的事宜在操作,能直接重啟電腦,大部分的小問題能透過重新啟動電腦來快速解決。如果確定寬頻沒有欠費,網路正常,那便是另一回事。方法二:1、按【Win】鍵,或點選左下角的【開始選單】,在開啟的選單項目中,點選電源按鈕上方的齒輪狀圖標,這個就是【設

又雙叒叕是一個新功能的亮相。你是否會遇看過想要給圖片角色換個背景,但AI總是搞出「物非人也非」的效果。即使在Midjourney、DALL・E這樣成熟的生成工具中,保持角色一致性還得有些prompt技巧,不然人物就會變來變去,根本達不到你想要的結果。不過,這次算是讓你遇見了。 AIGC工具PixVerse的「角色-影片」新功能可以幫你實現這一切。不僅如此,它能產生動態視頻,讓你的角色更加生動。輸入一張圖,就能夠得到對應的動態影片結果,在保持角色一致性的基礎上,豐富的背景元素和角色動態讓產生結果

LOL無法連接伺服器請檢查網路近年來,網路遊戲已經成為了許多人的日常娛樂活動。其中,英雄聯盟(LOL)作為一款非常受歡迎的多人線上遊戲,吸引了億萬玩家的參與和愛好。然而,有時候我們在玩LOL的時候會遇到「無法連接伺服器請檢查網路」的錯誤提示,這無疑給玩家們帶來了一些困擾。接下來,我們將探討該錯誤的出現原因和解決方法。首先,LOL無法連接伺服器的問題可能是

在具有網路連線的安全模式下,Windows11電腦上沒有網路連線可能會令人沮喪,尤其是在診斷和排除係統問題時。在本指南中,我們將討論問題的潛在原因,並列出有效的解決方案,以確保您在安全模式下可以存取網路。為什麼在網路連線的安全模式下沒有網路?網路適配器不相容或未正確載入。第三方防火牆、安全軟體或防毒軟體可能會幹擾安全模式下的網路連線。網路服務未運作。惡意軟體感染如果互聯網無法在Windows11的安全模式下使用網絡,我該怎麼辦?在執行進階故障排除步驟之前,應考慮執行以下檢查:請確保使
