LLama+Mistral+…+Yi=? 免訓練異構大模型整合學習架構DeePEn來了

王林
發布: 2024-07-19 17:10:50
原創
1167 人瀏覽過
LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的主要作者為黃毅翀。 黃毅翀是哈爾濱工業大學社會計算與資訊檢索研究中心博士生,鵬城實驗室實習生,師從秦兵教授和馮驍騁教授。研究方向包括大語言模型整合學習、多語言大模型,相關論文發表於自然語言處理頂級會議 ACL、EMNLP、COLING。

隨著大語言模型展現出驚人的語言智能,各大 AI 公司紛紛推出自己的大模型。這些大模型通常在不同領域和任務上各有所長,如何將它們整合起來以挖掘其互補潛力,成為了 AI 研究的前沿課題。

近期,哈工大和鵬城實驗室的研究人員提出了「Training-free 的異構大模型整合學習框架」DeePEn。

不同於以往方法訓練外部模組來篩選、融合多個模型生成的回复,DeePEn 在解碼過程中融合多個模型輸出的概率分佈,聯合決定每一步的輸出 token。相較而言,該方法不僅能快速應用於任何模型組合,還允許被整合模型存取彼此的內部表示(機率分佈),實現更深層的模型協作。

結果表明, DeePEn 在多個公開數據集上均能取得顯著提升,有效擴展大模型性能邊界:

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

目前論文及代碼均已公開:論文
標題:Ensemble Learning for Heterogeneous LargeLanguage Models with Deep Parallel Collaboration

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

    論文地址:https://arxiv.org/abs/2404.12715
  • 🜟地址
  • 方法介紹

異構大模型整合的核心困難在於如何解決模型間的詞表差異問題。為此,DeePEn 基於相對錶示理論,建構由多個模型詞表之間的共享 token 構成的統一相對錶示空間。在解碼階段,DeePEn 將不同大模型輸出的機率分佈映射到該空間進行融合。
全程無需參數訓練

下圖中展示了 DeePEn 的方法。給定 N 個模型進行集成,DeePEn 首先建立它們的轉換矩陣(即相對錶示矩陣),將來自多個異構絕對空間的機率分佈映射到統一的相對空間。在每個解碼步驟中,所有模型進行前向計算並輸出 N 個機率分佈。這些分佈被映射到相對空間並進行聚合。最後,聚合結果被轉換回某個模型(主模型)的絕對空間,以決定下一個 token。
                圖 1:方法示意圖。其中,相對錶示轉換矩陣是透過計算詞表中每個 token 與模型間共享的錨點 token 之間的詞嵌入相似度得到的。

構建相對錶示轉換

的關鍵詞並從中抽取一個子集A⊆C 或使用全部共享詞作為錨點詞集合A=C。 LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了
對於每個模型
,DeePEn 計算詞表中每個 token 與錨點 token 的嵌入相似度,得到相對錶示矩陣
。最後,為了克服離群詞的相對表示退化問題,論文作者將相對錶示矩陣進行行歸一化,透過將矩陣的每一行進行 softmax 運算,得到歸一化相對錶示矩陣
LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

相對錶示融合

在每個解碼步驟中,一旦模型
輸出機率分佈
,DPEPE
LLama+Mistral+…+Yi=? 免訓練異構大模型整合學習架構DeePEn來了
並將所有相對錶示進行加權平均以獲得聚合的相對錶示:

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了其中LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了是模型LLama+Mistral+…+Yi=? 免訓練異構大模型整合學習架構DeePEn來了的協作權重。作者嘗試了兩種確定協作權重值的方法:(1) DeePEn-Avg,對所有模型使用相同的權重;(2) DeePEn-Adapt,根據各個模型的驗證集性能成比例地為每個模型設定權重。

相對錶示逆映射

為了根據聚合的相對表示決定下一個 token,DeePEn 將其從相對空間轉換回主模型(開發集上性能最好的模型)的絕對空間。為了實現這種逆轉換,DeePEn 採用了基於搜尋的策略,找出相對錶示與聚合後的相對錶示相同的絕對表示:

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

其中LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了表示模型LLama+Mistral+…+Yi=? 免訓練異構大模型整合學習架構DeePEn來了的絕對空間,LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了是衡量相對錶示之間距離的損失函數(KL 散度)。

DeePEn 利用損失函數LLama+Mistral+…+Yi=? 免訓練異構大模型整合學習架構DeePEn來了相對於絕對表示LLama+Mistral+…+Yi=? 免訓練異構大模型整合學習架構DeePEn來了的梯度來指導搜尋過程,並迭代地進行搜尋。具體來說,DeePEn 將搜尋的起始點LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了初始化為主模型的原始絕對表示,並進行更新:

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

其中 η 是稱為相對集成學習率的超參數,T 是搜尋迭代步數。

最後,使用更新後的絕對表示LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了來決定下一步輸出的 token。

實驗

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

                表 1:主要實驗結果。第一部分為單模型的效能,第二部分為分別對每個資料集上的 top-2 模型進行整合學習,第三部分為 top-4 模型整合。

透過實驗,論文作者得出了以下結論:

(1) 大模型在不同任務上各有所長
(1) 
大模型在不同任務上各有所長
。如表 1 所示,不同大模型在不同資料集上的表現有顯著差異。例如 LLaMA2-13B 在知識問答 TriviaQA 和 NQ 資料集上取得了最高的結果,但是其他四個任務上的排名並未進入前四名。
(2)

分佈融合在各個資料集上取得了一致性的提升LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了。如表 1 所示,DeePEn-Avg 和 DeePEn-Adapt 在所有資料集上均取得了效能提升。在 GSM8K 上,透過與投票法組合使用,最終取得了 + 11.35 的效能提升。

                             

(3)

隨著整合模型數量的增加,整合效能先增後減LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了。作者在根據模型性能由高到低,依次將模型加入集成,然後觀察性能變化。如表 2 所示,不斷引入性能較差的模型,集成性能先增後減。

                              表 3:在多語言機器中翻譯資料集與整合式資料集之間,大翻譯資料集

(4) 
集成大模型與專家模型有效提升特定任務表現
。作者也在機器翻譯任務上整合大模型 LLaMA2-13B 和多語言翻譯模型 NLLB 。如表 3 所示,通用大模型與任務特定的專家模型之間的集成,可顯著提升效能。
結論
🎜🎜當前的大模型層出不窮,但很難有一個模型能在所有任務上全面碾壓其他模型。因此,如何利用不同模型之間的互補優勢,成為重要的研究方向。本文介紹的 DeePEn 框架,解決了不同大模型在分佈融合時的詞表差異問題,且無需任何參數訓練。大量實驗表明,DeePEn 在不同任務、不同模型數量及不同模型架構的整合學習設定中,均取得了穩定的效能提升。 🎜

以上是LLama+Mistral+…+Yi=? 免訓練異構大模型整合學習架構DeePEn來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:jiqizhixin.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板