首頁 科技週邊 人工智慧 手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

Oct 12, 2023 pm 06:29 PM
工程 大模型剪枝法 llm-shearing

给 Llama 2(羊驼)大模型剪一剪驼毛,会有怎样的效果呢?今天普林斯顿大学陈丹琦团队提出了一种名为 LLM-Shearing 的大模型剪枝法,可以用很小的计算量和成本实现优于同等规模模型的性能。


自大型语言模型(LLM)出现以来,它们便在各种自然语言任务上取得了显著的效果。不过,大型语言模型需要海量的计算资源来训练。因此,业界对构建同样强大的中型规模模型越来越感兴趣,出现了 LLaMA、MPT 和 Falcon,实现了高效的推理和微调。

这些规模不等的 LLM 适用于不同的用例,但从头开始训练每个单独的模型(即使是 10 亿参数小模型)还是需要大量计算资源,这对于大多数科研机构而言仍是很大的负担。

因此在本文中,普林斯顿大学陈丹琦团队试图解决以下问题:能否利用现有预训练 LLM 来构建一个规模更小、通用且在性能上有竞争力的 LLM,同时比从头开始训练需要的计算量少得多?

研究者探索利用结构化剪枝来实现目标。这里的问题是,对于通用 LLM,剪枝后的模型会出现性能下降,尤其是在剪枝后没有大量计算投入的情况。他们使用的高效剪枝方法可以用来开发规模更小但仍具有性能竞争力的 LLM,并且与从头开始训练相比,训练需要的计算量也大大减少。

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

  • 论文地址: https://arxiv.org/abs/2310.06694
  • 代码地址: https://github.com/princeton-nlp/LLM-Shearing
  • ModelsSheared-LLaMA-1.3B, Sheared-LLaMA-2.7B

在对 LLM 进行剪枝之前,研究者确定了两个关键技术挑战,一是如何确定最终的性能强大、推理高效的剪枝结构?LLM 目前的结构化剪枝技术没有指定的目标结构,导致剪枝后模型在性能和推理速度方面不理想;二是如何继续预训练剪枝后的模型以达到预期性能?他们观察到,与从头开始训练模型相比,使用原始预训练数据来训练会导致不同域出现不同的损失减少。

针对这两个挑战,研究者提出了「LLM - shearing」算法。这种新颖的剪枝算法被称为「定向结构化剪枝」,它将源模型剪枝为指定的目标架构,该结构通过现有预训练模型的配置来确定。他们表示,该剪枝方法在源模型中搜索子结构,并在资源受限的情况下最大程度地保持性能。此外设计一种动态批量加载算法,它能根据损失减少率按比例加载每个域的训练数据,从而高效利用数据并加速整体性能的提升。

最终,研究者将 LLaMA2-7B 模型剪枝成了两个较小的 LLM,分别是 Sheared-LLaMA-1.3B 和 Sheared-LLaMA-2.7B,证实了其方法的有效性。

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

他们仅仅使用 500 亿个 token(即 OpenLLaMA 预训练预算的 5%)进行剪枝和继续预训练,但对于 11 个代表性下游任务(如常识、阅读理解和世界知识)以及开放式生成的指令调整,这两个模型的性能仍然优于其他同等规模的流行 LLM,包括 Pythia、INCITE 和 OpenLLaMA。

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

不过要提到一点,在这篇论文发布 Sheared-LLaMA-3B 的时候,最强 3B 开源模型的纪录已经被 StableLM-3B 打破了。

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

此外,下游任務表現軌跡表明,使用更多 token 來進一步訓練剪枝後的模型,將帶來更大的收益。研究者只對最多 70 億參數的模型進行了實驗,但 LLM-shearing 具有高度通用性,可以在未來的工作中擴展到任何規模的大型語言模型。

方法介紹

#給定一個現有的大模型M_S(來源模型),本文目標是研究如何有效地產生一個更小、更強的模型M_T(目標模型)。研究認為這需要兩個階段來完成:

  • 第一階段將M_S 剪枝為M_T,雖然這樣減少了參數數量,但不可避免地導致性能下降;
  • 第二階段持續預訓練M_T,使其性能更強。

#結構化剪枝

結構化剪枝可以去除模型大量參數,從而達到壓縮模型並加速推理的效果。然而,現有的結構化剪枝方法會導致模型偏離常規架構的配置。例如 CoFiPruning 方法產生的模型具有不統一的層配置,與標準的統一層配置相比,會產生額外的推理開銷。

本文對 CoFiPruning 進行了擴展,以允許將來源模型剪枝為指定的任何目標配置。例如,本文在產生 2.7B 模型時使用 INCITE-Base-3B 架構作為目標結構。

此外,本文還在不同粒度的模型參數上學習一組剪枝遮罩( pruning mask),遮罩變數如下所示:

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

每個遮罩變數控制是否剪枝或保留相關的子結構。例如,如果對應的 z^layer= 0,則需要刪除這個圖層。下圖 2 說明了剪枝遮罩如何控制被剪枝的結構。

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

剪枝之後,本文透過保留與每個子結構中的遮罩變數相關的最高得分元件來最終確定剪枝後的架構,並繼續使用語言建構模目標對剪枝後的模型進行預訓練。

動態批次載入

#該研究認為對剪枝後的模型進行大量預訓練是很有必要的,這樣才能恢復模型效能。

受其他研究的啟發,本文提出了一種更有效的演算法,即動態批量加載,其可以根據模型性能簡單地動態調整域比例。演算法如下:

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

實驗及結果

模型配置:本文將LLaMA2-7B模型作為源模型,然後進行結構化剪枝實驗,他們將LLaMA2-7B 壓縮成兩個較小的目標尺寸2.7 B 和1.3B 參數,並將剪之後的模型與相同尺寸的模型進行了性能比較,包括OPT-1.3B、Pythia-1.4B、OPT-2.7B、 Pythia-2.8B、INCITE-Base-3B、OpenLLaMA-3B-v1、OpenLLaMA-3B-v2。表 8 總結了所有這些模型的模型體系結構細節。

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

資料:由於 LLaMA2 的訓練資料並不是公開存取的,因此本文使用了 RedPajama 資料集 。表 1 提供了本文模型和基準模型所使用的預訓練資料。

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

訓練:研究者在所有實驗中最多使用了 16 個 Nvidia A100 GPU (80GB)。

SHEARED-LLAMA 優於同等大小的LM

本文表明,Sheared- LLaMA 明顯優於現有的類似規模的LLM,同時只使用一小部分計算預算來從頭開始訓練這些模型。

下游任務:表 2 展示了 Sheared-LLaMA 和類似大小的現有預訓練模型的零樣本和少樣本在下游任務上的表現。

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

指令調校:如圖 3 所示,與同等規模的所有其他預訓練模型相比,指令調優的 Sheared-LLaMA 實現了更高的獲勝率。

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

圖 4 顯示了 INCITEBase-3B 模型開始時的精確度要高得多,但其效能在持續的預訓練過程中趨於穩定。

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

分析

#最後,研究者對本文方法的優點進行了分析。

動態批次載入的有效性

#其中,研究者從以下三個方面的影響來分析動態批次載入的有效性:(1) 跨域的最終LM 損失,(2) 整個訓練過程中每個領域的資料使用情況,(3) 下游任務效能。結果均基於 Sheared-LaMA-1.3B 演算法。

跨域損失差異。動態批量載入的目的是平衡各域的損失降低率,使損失在大致相同的時間內達到參考值。圖5 中繪製了模型損耗(原始批量加載和動態批量加載)與參考損耗之間的差異,相比之下,動態批量加載能均勻地減少損失,各域的損失差異也非常相似,這表明數據使用效率更高。

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

資料使用。表 3 比較了 RedPajama 的原始資料比例和動態載入的域資料使用情況(圖 7 展示了整個訓練過程中域權重的變化)。與其他域相比,動態批次載入增加了 Book 和 C4 域的權重,這表明這些域更難恢復剪枝模型。

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

下游效能。如圖 6 所示,與在原始 RedPajama 分佈上訓練的模型相比,使用動態批量加載訓練的剪枝模型獲得了更好的下游性能。這表明,動態批量加載所帶來的更均衡的損失減少可以提高下游效能。

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

與其他剪枝方法的對比

#此外,研究者將LLM- shearing 方法與其他剪枝方法進行了比較,並報告了驗證困惑度,它是衡量整體模型能力的一個有力指標。

由於計算上的限制,下面的實驗控制了所有比較方法的總計算預算,而不是將每種方法運行到最後。

如表4 所示,在相同稀疏度下,本文的目標剪枝模型的推理吞吐量比非均勻剪枝CoFiPruning 模型更高,但困惑度略高。

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

其他分析

#表5 顯示,在控制token 總量的情況下,增加剪枝開銷可以持續改善困惑度。然而,由於剪枝比持續的預訓練更昂貴,研究者將 0.4B 的 token 分配給剪枝。

手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法

更多研究細節,可參考原論文。

以上是手把手教你剪「羊駝」,陳丹琦團隊提出LLM-Shearing大模型剪枝法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 Jul 17, 2024 am 10:14 AM

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

LLM用於時序預測真的不行,連推理能力都沒用到 LLM用於時序預測真的不行,連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

See all articles