目錄
#方法介紹
實驗結果
首頁 科技週邊 人工智慧 多個異構大模型的融合帶來驚人效果

多個異構大模型的融合帶來驚人效果

Jan 29, 2024 am 09:12 AM
ai 模型

隨著LLaMA、Mistral等大語言模型的成功,許多公司開始創建自己的大語言模型。然而,從頭訓練新的模型成本高昂,且可能存在能力冗餘。

近日,中山大學和騰訊 AI Lab 的研究人員提出了 FuseLLM,用於「融合多個異構大模型」。

與傳統的模型整合和權重合併方法不同,FuseLLM提供了一種新的方式來融合多個異質大語言模型的知識。與同時部署多個大語言模型或要求合併模型結果不同,FuseLLM使用輕量級的持續訓練方法,將各個模型的知識和能力轉移到一個融合的大語言模型中。這種方法的獨特之處在於它能夠在推理時使用多個異質大語言模型,並將它們的知識外化到融合模型中。透過這種方式,FuseLLM有效地提高了模型的性能和效率。

該論文剛剛在 arXiv 上發布就引起了網友的大量關注和轉發。

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效


有人覺得在另一種語言上訓練模型很有趣,我一直在思考這個問題。


Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

目前論文已被 ICLR 2024 接受。

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效


  • #論文標題:Knowledge Fusion of Large Language Models
  • #論文網址:https://arxiv.org/abs/2401.10491
  • 論文倉庫:https: //github.com/fanqiwan/FuseLLM

#方法介紹

FuseLLM 的關鍵在於從機率分佈表徵的角度來探討大語言模型的融合,對於同樣的輸入文本,作者認為由不同大語言模型產生的表徵可以反映出它們在理解這些文本時的內在知識。因此,FuseLLM 首先利用多個源大語言模型產生表徵,將它們的集體知識和各自優勢外化,然後將生成的多個表徵取長補短進行融合,最後經過輕量級的持續訓練遷移到目標大語言模型。下圖展示了 FuseLLM 方法的概述。

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

考慮到多個異質大語言模型的tokenizer 以及詞表存在差異,在融合多個表徵時,如何對齊分詞結果是一大關鍵: FuseLLM 在token 層級的完全匹配之上,額外設計了基於最小編輯距離的詞表層級對齊,最大程度地保留了表徵中的可用資訊。

為了在結合多個大語言模型的集體知識的同時保持其各自的優勢,需要精心設計用於融合模型生成表徵的策略。具體而言,FuseLLM 透過計算生成表徵和標籤文本之間交叉熵來評估不同大語言模型對這條文本的理解程度,然後引入了兩種基於交叉熵的融合函數:

  • #MinCE: 輸入多個大模型為當前文本生成的表徵,輸出交叉熵最小的表徵;
  • AvgCE: 輸入多個大模型為當前文本產生的表徵,輸出基於交叉熵獲得的權重加權平均的表徵;

#在持續訓練階段,FuseLLM 使用融合後的表徵作為目標計算融合損失,同時也保留了語言模型損失。最終的損失函數為融合損失和語言模型損失之和。

實驗結果

在實驗部分,作者考慮了一個通用但具有挑戰性的大語言模型融合場景,其中源模型在結構或能力上具備較小的共通性。具體來說,其在 7B 規模上進行了實驗,並選擇了三個代表性的開源模型:Llama-2、OpenLLaMA,和 MPT 作為待融合的大模型。

作者在通用推理、常识推理、代码生成、文本生成、指令跟随等场景评估了 FuseLLM,发现其相较于所有源模型和继续训练基线模型取得了显著的性能提升。

通用推理 & 常识推理

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

在测试通用推理能力的 Big-Bench Hard Benchmark 上,经过持续训练后的 Llama-2 CLM 相较于 Llama-2 在 27 个任务上取得了平均 1.86% 的提升,而 FuseLLM 则相较于 Llama-2 取得了 5.16% 的提升,显著优于 Llama-2 CLM,说明 FuseLLM 能结合多个大语言模型的优势取得性能提升。

在测试常识推理能力的 Common Sense Benchmark 上,FuseLLM 超过了所有的源模型和基线模型,在所有任务上都取得了最佳的性能。

代码生成 & 文本生成

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

在测试代码生成能力的 MultiPL-E Benchmark 上,FuseLLM 在 10 个任务中,有 9 个超过了 Llama-2,取得了平均 6.36% 的性能提升。而 FuseLLM 没有超过 MPT 和 OpenLLaMA 的原因可能是由于使用 Llama-2 作为目标大语言模型,其代码生成能力较弱,且持续训练语料中的代码数据比例较低,仅占约 7.59%。

在多个测量知识问答(TrivialQA)、阅读理解(DROP)、内容分析(LAMBADA)、机器翻译(IWSLT2017)和定理应用(SciBench)的文本生成 Benchmark 上,FuseLLM 也在所有任务中超过了所有源模型,并在 80% 的任务中超过了 Llama-2 CLM。

指令跟随

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

由于 FuseLLM 仅需提取多个源模型的表征进行融合,然后对目标模型持续训练,因此其也能适用于指令微调大语言模型的融合。在评估指令跟随能力的 Vicuna Benchmark 上,FuseLLM 同样取得了出色表现,超过了所有源模型和 CLM。

FuseLLM vs. 知识蒸馏 & 模型集成 & 权重合并

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

考虑到知识蒸馏也是一种利用表征提升大语言模型性能的方法,作者将 FuseLLM 和用 Llama-2 13B 蒸馏的 Llama-2 KD 进行了比较。结果表明,FuseLLM 通过融合三个具有不同架构的 7B 模型,超过了从单个 13B 模型蒸馏的效果。

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

为了将 FuseLLM 与现有融合方法进行比较(例如模型集成和权重合并),作者模拟了多个源模型来自相同结构的底座模型,但在不同的语料库上持续训练的场景,并测试了各种方法在不同测试基准上的困惑度。可以看到虽然所有的融合技术都可以结合多个源模型的优势,但 FuseLLM 能达到最低的平均困惑度,表明 FuseLLM 具备能比模型集成和权重合并方法更有效地结合源模型集体知识的潜力。

最后,尽管社区目前已经关注大模型的融合,但目前的做法大多基于权重合并,无法扩展到不同结构、不同规模的模型融合场景。虽然 FuseLLM 只是一项初步的异构模型融合研究,但考虑到目前技术社区存在大量不同的结构和规模的语言、视觉、音频和多模态大模型,未来这些异构模型的融合会迸发出怎样惊人地表现呢?让我们拭目以待!

以上是多個異構大模型的融合帶來驚人效果的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1675
14
CakePHP 教程
1429
52
Laravel 教程
1333
25
PHP教程
1278
29
C# 教程
1257
24
幣圈十大虛擬幣交易所app 2025年幣圈十大數字貨幣交易所最新排行榜 幣圈十大虛擬幣交易所app 2025年幣圈十大數字貨幣交易所最新排行榜 May 12, 2025 pm 06:00 PM

幣圈十大虛擬幣交易所app:1. Binance,2. OKX,3. Huobi,4. Coinbase,5. Kraken,6. Bitfinex,7. Bybit,8. KuCoin,9. Gemini,10. Bitstamp,這些平台因其交易量、安全性和用戶體驗而備受歡迎。

如何設置、獲取和刪除 WordPress Cookie(像專業人士一樣) 如何設置、獲取和刪除 WordPress Cookie(像專業人士一樣) May 12, 2025 pm 08:57 PM

您想了解如何在WordPress網站上使用cookie嗎? Cookie是在用戶瀏覽器中存儲臨時信息的有用工具。您可以使用此信息通過個性化和行為定位來增強用戶體驗。在本終極指南中,我們將向您展示如何像專業人士一樣設置、獲取和刪除WordPresscookie。注意:這是一個高級教程。它要求您精通HTML、CSS、WordPress網站和PHP。什麼是Cookie? Cookie是用戶訪問網站時創建並存儲在用戶瀏覽

2025年火幣APKV10.50.0下載指南 怎麼下載 2025年火幣APKV10.50.0下載指南 怎麼下載 May 12, 2025 pm 08:48 PM

火幣APKV10.50.0下載指南:1、點擊文中直達鏈接;2、選擇正確的下載包;3、填寫註冊信息;4、開始火幣交易流程。

2025年火幣APKV10.50.0下載地址 2025年火幣APKV10.50.0下載地址 May 12, 2025 pm 08:42 PM

火幣APKV10.50.0下載指南:1、點擊文中直達鏈接;2、選擇正確的下載包;3、填寫註冊信息;4、開始火幣交易流程。

2025年火幣APKV10.50.0安裝方法 APK指南 2025年火幣APKV10.50.0安裝方法 APK指南 May 12, 2025 pm 08:27 PM

火幣APKV10.50.0下載指南:1、點擊文中直達鏈接;2、選擇正確的下載包;3、填寫註冊信息;4、開始火幣交易流程。

2025年火幣APKV10.50.0下載網址 2025年火幣APKV10.50.0下載網址 May 12, 2025 pm 08:39 PM

火幣APKV10.50.0下載指南:1、點擊文中直達鏈接;2、選擇正確的下載包;3、填寫註冊信息;4、開始火幣交易流程。

2025十大虛擬幣交易所app排名 數字貨幣交易APP最新排行榜前十名 2025十大虛擬幣交易所app排名 數字貨幣交易APP最新排行榜前十名 May 12, 2025 pm 08:18 PM

2025年十大虛擬幣交易所APP排名如下:1. OKX,2. Binance,3. Huobi,4. Coinbase,5. Kraken,6. KuCoin,7. Bybit,8. FTX,9. Bitfinex,10. Gate.io。這些交易所根據用戶體驗、安全性和交易量等維度進行評選,每個平台都提供了獨特的功能和服務,以滿足不同用戶的需求。

十大數字幣交易所app最新排名 數字貨幣十大交易所app推薦 十大數字幣交易所app最新排名 數字貨幣十大交易所app推薦 May 12, 2025 pm 08:15 PM

十大數字幣交易所app最新排名依次為:1. OKX,2. Binance,3. Huobi,4. Coinbase,5. Kraken,6. KuCoin,7. Bitfinex,8. Gemini,9. Bitstamp,10. Poloniex。使用這些app的步驟包括:下載並安裝app,註冊賬戶,完成KYC認證,充值並開始交易。

See all articles