來自科技進步一等獎的肯定:騰訊破解萬億參數大模型訓練難題

WBOY
發布: 2024-03-27 21:41:45
轉載
1183 人瀏覽過
中國電子學會 2023 科學技術獎授獎名單公佈,這次,我們發現了一個熟悉的身影 —— 騰訊 Angel 機器學習平台。

在大模型快速發展的當下,科學技術獎授予機器學習平台類研究和應用項目,對於模型訓練平台的價值和重要性給予了充分的肯定。

來自科技進步一等獎的肯定:騰訊破解萬億參數大模型訓練難題

科學技術獎認可了機器學習平台類專案的研究和應用,特別在大型模型快速發展的背景下,對模型訓練平台的價值和重要性給予了充分的認可。

隨著深度學習的興起,各大公司開始意識到機器學習平台在發展人工智慧技術中的重要性。谷歌、微軟、英偉達等公司都推出了自己的機器學習平台,以加速人工智慧模式的訓練過程。這些平台為開發者提供了便利的支持,使他們能夠更快地建構和優化複雜的人工智慧系統。這種趨勢促使人們更加關注機器學習技術的發展,並為未來的人工智慧應用打下了堅實的基礎。

從2023年開始,大型模型的興起進一步推動了模型參數量的提升。各大公司紛紛推出了參數規模達到千億甚至萬億等級的模型,這些模型普遍採用深度神經網路結構。然而,這種發展也帶來了兩個核心痛點:模型分散式訓練的困難以及應用複雜性所帶來的模型設計挑戰。

為什麼是 Angel 機器學習平台?

詳解四大核心技術突破

由多名院士等權威專家組成的鑑定委員會認為, 騰訊Angel 機器學習平台技術複雜度高、研發難度大、創新性強,應用前景廣闊,整體技術達到國際先進水平,其中面向all-to-all 通訊的高效快取調度與管理技術、自適應預採樣與圖結構搜尋技術達到國際領先水準。

來自科技進步一等獎的肯定:騰訊破解萬億參數大模型訓練難題

                              騰訊Angel 平台架構圖片

來自科技進步一等獎的肯定:騰訊破解萬億參數大模型訓練難題

來自科技進步一等獎的肯定:騰訊破解萬億參數大模型訓練難題

來自科技進步一等獎的肯定:騰訊破解萬億參數大模型訓練難題##地說# * * *->>).架構,這種架構的特點是將儲存模型參數和執行模型計算這兩個任務分別在不同的伺服器上運行。透過增加更多的伺服器,可以支援更大規模、運算需求更高的模型。這種架構使得模型訓練過程更有效率,能夠處理大規模資料集和複雜模型運算。分散式參數伺服器的設計使得系統具有良好的擴充性和靈活性,能夠滿足不同規模和需求的機器學習任務。這種架構的優點在於可以有效地利用叢集資源,提高運算效率,並為使用者提供更快速、更

###面對海量資料和超大規模模型訓練需求,騰訊Angel 機器學習平台在網路通信與快取、模型儲存與調度、多模態模型與融合學習排序、大規模圖模型與結構搜尋技術等核心環節取得技術突破。 ###############為了提高訓練效率,TB 級機器學習模型通常採用分散式訓練方法,需要大量的參數和梯度同步,以1.8T 模型千卡訓練為例, IO 通訊量達到25TB, 耗時佔53%,此外,加上不同算力集群間的異質網路環境,通訊網路延遲不一,這些都對模型訓練過程中的通訊開銷提出了較高的要求。騰訊Angel 機器學習平台基於騰訊雲星脈網路的高效通訊與快取調度管理技術,可有效解決TB 級模型訓練通訊開銷大的問題,實現網路通訊耗時減少80%,分散式訓練效能達業界主流方案的2.5 倍。 ###############現有的算力條件下,儘管模型達到 TB 級,而主流 GPU 的顯存仍只有 80G,參數儲存有瓶頸。針對 TB 級模型訓練參數儲存困難的關鍵問題, 騰訊 Angel 機器學習平台提出了顯存主存統一視角儲存管理機制,實現模型儲存容量比業界增加 1 倍,訓練效能是業界主流方案 2 倍。 ############

大模型要向通用模型發展,離不開對多模態數據的處理支持,不同模態,例如文字、圖像、視頻等數據的對齊融合理解難度大。在多模態模型的訓練上, 騰訊 Angel 機器學習平台針對廣告場景,提出多模態融合學習的全連結排序廣告推薦技術,協助廣告回想率提升 40% 以上。

來自科技進步一等獎的肯定:騰訊破解萬億參數大模型訓練難題

另外,針對推薦系統導向的圖模型訓練,騰訊Angel 機器學習平台設計了圖節點特徵自適應圖網路結構搜尋技術,可自動輸出最佳結構,解決了TB 圖模型應用中「圖資料探勘難」 的問題,實現模型訓練效能提升28 倍,與業界比具有最適擴展性。

騰訊Angel 機器學習平台鍛造之路

#騰訊混元大模型擴展到萬億規模

作為騰訊人工智慧技術的基礎平台,騰訊Angel 平台誕生於2015 年,支援PS-Worker 分散式訓練, 以及十億參數LDA 模型的訓練。

2017 年,Angel 框架在 Github 開源,向開發者開放,同時,技術上,Angel 解決了異質網路下的通訊問題,效能進一步提升。 2019 年,在可擴展圖模型多模態理解技術取得突破,解決兆節點可擴展圖模型問題。 2021 年,提出 GPU 顯存統一視角儲存技術,解決大模型 參數儲存與效能問題。

在騰訊通用人工智慧大模型騰訊混元的打造中,騰訊 Angel 機器學習平台也扮演了重要角色。

2023 年 9 月,騰訊混元大模型正式對外亮相,預訓練語料超 2 萬億 tokens,具有強大的中文理解與創作能力、邏輯推理能力,以及可靠的任務執行能力。

面對建造騰訊混元大模型的需求,騰訊Angel 機器學習平台打造了自研的面向大模型訓練和推理的機器學習框架Angel PTM 和Angel HCF,支持單任務萬卡級別超大規模訓練和大規模推理服務部署。實現大模型訓練效率提升至主流開源框架的 2.6 倍,千億級大模型訓練可節省 50% 算力成本,升級後支援單任務萬卡級別超大規模訓練。在推理上,騰訊 Angel 機器學習平台推理速度提高了 1.3 倍,在騰訊混元大模型文生圖的應用中,推理耗時從原本的 10 秒縮短至 3 至 4 秒。

此外,Angel 還提供了從模型研發到應用落地的一站式平台,支援用戶透過API 介面或精調等方式快速呼叫騰訊混元大模型能力,加速大模型應用構建,騰訊會議、騰訊新聞、騰訊影片等超過400 個騰訊產品及場景都已接取騰訊混元內測。

騰訊混元透過採用混合專家模型 (MoE) 結構,已將模型擴展至萬億級參數規模,推動了性能提升和推理成本下降。作為通用模型,騰訊混元在中文表現上處於業界領先水平,尤其在文字生成、數理邏輯和多輪對話中表現表現卓越。目前,騰訊混元也積極發展多模態模型,以進一步加強文生圖和文生視訊能力。

騰訊大量的應用場景,為騰訊 Angel 機器學習平台的落地提供了實驗地。除了騰訊混元大模型,騰訊 Angel 機器學習平台也支援了騰訊廣告以及騰訊會議等產品,並透過騰訊雲端服務多個產業和企業客戶,協助各行各業的數位化和智慧化發展。

以騰訊廣告為例,採用騰訊Angel 機器學習平分散式訓練優化、多模態理解圖資料探勘等創新技術,廣告業務場景中的多模態大模型訓練速度提升5 倍,模型規模提升10 倍,實現廣告回想率大幅提升。

以上是來自科技進步一等獎的肯定:騰訊破解萬億參數大模型訓練難題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:jiqizhixin.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!