AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文的主要作者為黃毅翀。 黃毅翀是哈爾濱工業大學社會計算與資訊檢索研究中心博士生,鵬城實驗室實習生,師從秦兵教授和馮驍騁教授。研究方向包括大語言模型整合學習、多語言大模型,相關論文發表於自然語言處理頂級會議 ACL、EMNLP、COLING。 隨著大語言模型展現出驚人的語言智能,各大 AI 公司紛紛推出自己的大模型。這些大模型通常在不同領域和任務上各有所長,如何將它們整合起來以挖掘其互補潛力,成為了 AI 研究的前沿課題。 近期,哈工大和鵬城實驗室的研究人員提出了「Training-free 的異構大模型整合學習框架」DeePEn。 不同於以往方法訓練外部模組來篩選、融合多個模型生成的回复,DeePEn 在解碼過程中融合多個模型輸出的概率分佈,聯合決定每一步的輸出 token。相較而言,該方法不僅能快速應用於任何模型組合,還允許被整合模型存取彼此的內部表示(機率分佈),實現更深層的模型協作。 結果表明, DeePEn 在多個公開數據集上均能取得顯著提升,有效擴展大模型性能邊界:
標題:Ensemble Learning for Heterogeneous LargeLanguage Models with Deep Parallel Collaboration
論文地址:https://arxiv.org/abs/2404.12715🜟地址
異構大模型整合的核心困難在於如何解決模型間的詞表差異問題。為此,DeePEn 基於相對錶示理論,建構由多個模型詞表之間的共享 token 構成的統一相對錶示空間。在解碼階段,DeePEn 將不同大模型輸出的機率分佈映射到該空間進行融合。
下圖中展示了 DeePEn 的方法。給定 N 個模型進行集成,DeePEn 首先建立它們的轉換矩陣(即相對錶示矩陣),將來自多個異構絕對空間的機率分佈映射到統一的相對空間。在每個解碼步驟中,所有模型進行前向計算並輸出 N 個機率分佈。這些分佈被映射到相對空間並進行聚合。最後,聚合結果被轉換回某個模型(主模型)的絕對空間,以決定下一個 token。
圖 1:方法示意圖。其中,相對錶示轉換矩陣是透過計算詞表中每個 token 與模型間共享的錨點 token 之間的詞嵌入相似度得到的。 的關鍵詞並從中抽取一個子集A⊆C 或使用全部共享詞作為錨點詞集合A=C。 對於每個模型
,DeePEn 計算詞表中每個 token 與錨點 token 的嵌入相似度,得到相對錶示矩陣。最後,為了克服離群詞的相對表示退化問題,論文作者將相對錶示矩陣進行行歸一化,透過將矩陣的每一行進行 softmax 運算,得到歸一化相對錶示矩陣
,DPEPE
以上是LLama+Mistral+…+Yi=? 免訓練異構大模型整合學習架構DeePEn來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!