這種精確度高,消耗資源少的大模型稀疏訓練方法找到了
近日,阿里雲機器學習PAI關於大模型稀疏訓練的論文《Parameter-Efficient Sparsity for Large Language Models Fine-Tuning》被人工智慧頂會IJCAI 2022接收。
論文提出了一種參數高效的稀疏訓練演算法PST,透過分析權重的重要性指標,得出了其擁有兩個特性:低秩性和結構性。根據這個結論,PST演算法引入了兩組小矩陣來計算權重的重要性,相較於原本需要與權重一樣大的矩陣來保存和更新重要性指標,稀疏訓練需要更新的參數量大大減少。比較常用的稀疏訓練演算法,PST演算法可以在僅更新1.5%的參數的情況下,達到相近的稀疏模型精度。
背景
近年來各大公司和研究機構提出了各式各樣的大模型,這些大模型擁有的參數從百億級別到萬億級別不等,甚至於已經出現十萬億級別的超大模型。這些模型需要耗費大量的硬體資源進行訓練和部署,導致它們面對著難以落地應用的困境。因此,如何減少大模型訓練和部署所需的資源成為了一個急需解決的問題。
模型壓縮技術可以有效的減少模型部署所需的資源,其中稀疏透過移除部分權重,使得模型中的計算可以從稠密計算轉換為稀疏計算,從而達到減少記憶體佔用,加快計算速度的效果。同時,稀疏相比於其他模型壓縮方法(結構化剪枝/量化),可以在確保模型精度的情況下達到更高的壓縮率,更適合擁有大量參數的大模型。
挑戰
現有的稀疏訓練手段可以分為兩類,一類是基於權重的data-free稀疏演算法;一類是基於資料的data -driven稀疏演算法。基於權重的稀疏演算法如下圖所示,如magnitude pruning[1],透過計算權重的L1範數來評估權重的重要性,並基於此產生對應稀疏結果。基於權重的稀疏演算法計算高效,無需訓練資料參與,但是計算出來的重要性指標不夠準確,進而影響最終稀疏模型的精確度。
基於資料的稀疏演算法如下圖所示,如movement pruning[2],透過計算權重和對應梯度的乘積作為衡量權重重要性的指標。這類方法考慮了權重在具體資料集上的作用,因此能夠更準確的評估權重的重要性。但由於需要計算並保存各個權重的重要性,因此這類方法往往需要額外的空間來儲存重要性指標(圖中S)。同時相較於基於權重的稀疏方法,往往計算過程更加複雜。這些缺點隨著模型的規模變大,會變得更加明顯。
綜上所述,之前的稀疏演算法要麼高效但是不夠準確(基於權重的演算法),要麼準確但是不夠高效(基於數據的演算法)。因此我們期望提出一種高效的稀疏演算法,能夠準確且高效的對大模型進行稀疏訓練。
破局
基於資料的稀疏演算法的問題是它們一般會引入額外的與權重相同大小的參數來學習權重的重要性,這讓我們開始思考如何減少引入的額外參數來計算權重的重要性。首先,為了能夠最大化利用已有資訊來計算權重的重要性,我們將權重的重要性指標設計成以下公式:
即我們結合了data-free和data-driven的指標來共同決定最終模型權重的重要性。已知前面data-free的重要性指標無需額外的參數來保存且計算高效,因此我們需要解決的就是如何壓縮後面那項data-driven重要性指標所引入的額外訓練參數。
基於先前的稀疏演算法,data-driven重要性指標可以設計成
,因此我們開始分析透過該公式計算出來的重要性指標的冗餘性。首先,基於先前的工作已知,權重和對應的梯度均具有明顯的低秩性[3,4],因此我們可以推導出此重要性指標也具有低秩性,因此我們可以引入兩個低秩小矩陣來表示原始與權重一樣大的重要性指標矩陣。
其次,我們分析了模型稀疏後的結果,發現它們具有明顯的結構性特徵。如上圖所示,每張圖的右邊是最終稀疏權重的視覺化結果,左邊是統計每一行/列對應稀疏率的直方圖。可以看出,左邊圖有30%的行中的大部分權重都被移除了,反之,右邊圖有30%的列中的大部分權重都被移除了。基於這樣的現象,我們引入了兩個小結構化矩陣來評估權重每一行/列的重要性。
基於上述的分析,我們發現data-driven的重要性指標存在低秩性和結構性,因此我們可以將其轉換成如下表示:
#其中A和B表示低秩性,R和C表示結構性。透過這樣的分析,原本和權重一樣大的重要性指標矩陣就被分解成了4個小矩陣,從而大大減少了參與稀疏訓練的訓練參數。同時,為了進一步減少訓練參數,我們基於先前的方法將權重的更新也分解成了兩個小矩陣U和V,因此最後的重要性指標公式變成如下形式:
對應演算法框架圖如下所示:
#最終PST演算法實驗結果如下,我們在NLU(BERT、RoBERTa)和NLG(GPT-2)任務上與magnitude pruning和movement pruning進行比較,在90%的稀疏率下,PST可以在大部分數據集上達到與之前算法相當的模型精度,但是僅需1.5%的訓練參數。
PST技術已經整合在阿里雲機器學習PAI的模型壓縮庫,以及Alicemind平台大模型稀疏訓練功能中。為阿里巴巴集團內部落地使用大模型帶來了性能加速,在百億大模型PLUG上,PST相比於原本的稀疏訓練可以在模型精度不下降的情況下,加速2.5倍,內存佔用減少10倍。目前,阿里雲機器學習PAI已被廣泛應用於各行各業,提供AI開發全鏈路服務,實現企業自主可控的AI方案,全面提升機器學習工程效率。
論文名稱:Parameter-Efficient Sparsity for Large Language Models Fine-Tuning
論文作者:Yuchao Li , Fuli Luo , Chuanqi Tan , Mengdi Wang , Songfang Huang , Shen Li , Junjie Bai
論文pdf連結:https://arxiv.org/pdf/2205.11005.pdf
#以上是這種精確度高,消耗資源少的大模型稀疏訓練方法找到了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

今天我想分享一個最新的研究工作,這項研究來自康乃狄克大學,提出了一種將時間序列資料與自然語言處理(NLP)大模型在隱空間上對齊的方法,以提高時間序列預測的效果。此方法的關鍵在於利用隱空間提示(prompt)來增強時間序列預測的準確性。論文標題:S2IP-LLM:SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting下載網址:https://arxiv.org/pdf/2403.05798v1.pdf1、問題背景大模型

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
