目次
FuseLLM の鍵目的は、確率分布表現の観点から大規模言語モデルの融合を探ることです。同じ入力テキストに対して、異なる大規模言語モデルによって生成された表現は、これらのテキストを理解する際の固有の知識を反映できると著者は考えています。したがって、FuseLLM は、まず複数のソース大規模言語モデルを使用して表現を生成し、それらの集合的な知識とそれぞれの利点を外部化し、次に生成された複数の表現を統合して相互に補完し、最後に軽量の継続的トレーニングを通じてターゲットの大規模言語モデルに移行します。 FuseLLM方式の概要を次の図に示します。
ホームページ テクノロジー周辺機器 AI 複数の異種大規模モデルの融合が驚くべき結果をもたらす

複数の異種大規模モデルの融合が驚くべき結果をもたらす

Jan 29, 2024 am 09:12 AM
ai モデル

LLaMA や Mistral などの大規模言語モデルの成功を受けて、多くの企業が独自の大規模言語モデルを作成し始めています。ただし、新しいモデルを最初からトレーニングするには費用がかかり、機能が冗長になる可能性があります。

最近、中山大学と Tencent AI Lab の研究者は、「複数の異種大規模モデルを融合する」ために使用される FuseLLM を提案しました。

従来のモデル統合や重み付けマージ方法とは異なり、FuseLLM は、複数の異種大規模言語モデルの知識を融合する新しい方法を提供します。複数の大規模な言語モデルを同時にデプロイしたり、モデルの結果を結合したりする代わりに、FuseLLM は軽量の継続的トレーニング方法を使用して、個々のモデルの知識と機能を融合された大規模な言語モデルに転送します。このアプローチのユニークな点は、推論時に複数の異種大規模言語モデルを使用し、その知識を融合モデルに外部化できることです。このようにして、FuseLLM はモデルのパフォーマンスと効率を効果的に向上させます。

この論文は arXiv で公開されたばかりで、多くの注目を集め、ネチズンから転送されています。

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效


誰かが別の言語でモデルをトレーニングするのは面白いだろうと考えていて、私はそれについて考えてきました。それ。


Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

#この論文は ICLR 2024 に受理されました。

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效


  • 論文タイトル: 大規模言語モデルの知識融合
  • ##紙のアドレス: https://arxiv.org/abs/2401.10491
  • 紙の倉庫: https: / /github.com/fanqiwan/FuseLLM
  • ##メソッドの紹介

FuseLLM の鍵目的は、確率分布表現の観点から大規模言語モデルの融合を探ることです。同じ入力テキストに対して、異なる大規模言語モデルによって生成された表現は、これらのテキストを理解する際の固有の知識を反映できると著者は考えています。したがって、FuseLLM は、まず複数のソース大規模言語モデルを使用して表現を生成し、それらの集合的な知識とそれぞれの利点を外部化し、次に生成された複数の表現を統合して相互に補完し、最後に軽量の継続的トレーニングを通じてターゲットの大規模言語モデルに移行します。 FuseLLM方式の概要を次の図に示します。

複数の異種大規模言語モデルのトークナイザーと語彙リストの違いを考慮して、複数の表現を融合する場合、単語の分割結果をどのように揃えるのですか? Aメジャー キー: トークン レベルでの正確な一致に加えて、FuseLLM は最小編集距離に基づいて語彙レベルのアラインメントをさらに設計し、表現内の利用可能な情報を最大限に保持します。 Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

それぞれの強みを維持しながら、複数の大規模な言語モデルの集合的な知識を結合するには、融合モデルで生成された表現の戦略を慎重に設計する必要があります。具体的には、FuseLLM は、生成された表現とラベル テキストの間のクロス エントロピーを計算することで、さまざまな大規模言語モデルがこのテキストをどの程度理解しているかを評価し、クロス エントロピーに基づいて 2 つの融合関数を導入します。

#MinCE: 複数の大規模モデルを入力して現在のテキストの表現を生成し、最小のクロス エントロピーで表現を出力します;

    ##AvgCE: 複数の大規模モデルを入力して、現在のテキスト 生成された表現は、クロス エントロピーによって取得された重みに基づいて加重平均表現を出力します;
  • 連続トレーニング フェーズでは、FuseLLM は計算のターゲットとして融合表現を使用します。融合損失と言語モデル損失も保存されます。最終的な損失関数は、融合損失と言語モデル損失の合計です。
実験結果

実験部分では、著者は、ソース モデルが Have である、一般的だが困難な大規模言語モデルの融合シナリオを検討します。構造や機能における小さな共通点。具体的には、7B規模で実験を実施し、融合する大規模モデルとしてLlama-2、OpenLLaMA、MPTの代表的な3つのオープンソースモデルを選定した。

著者は、一般推論、常識推論、コード生成、テキスト生成、命令追従などのシナリオで FuseLLM を評価し、すべてのソース モデルと比較して大幅なパフォーマンスの向上を達成し、ベースライン モデルを継続的にトレーニングしていることがわかりました。

#一般的な推論と常識的な推論

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

#一般的な推論能力をテストするビッグベンチ ハード ベンチマークでは、継続トレーニング後の Llama-2 CLM は、Llama-2 と比較して 27 のタスクで平均 1.86% の向上を達成しましたが、FuseLLM は Llama-2 と比較して平均 1.86% の向上を達成しました。 5.16% の改善が達成され、これは Llama-2 CLM よりも大幅に優れており、FuseLLM が複数の大規模言語モデルの利点を組み合わせてパフォーマンスの向上を達成できることを示しています。

常識的な推論能力をテストする Common Sense Benchmark では、FuseLLM はすべてのソース モデルとベースライン モデルを上回り、すべてのタスクで最高のパフォーマンスを達成しました。

#コード生成とテキスト生成

# オンコード生成機能をテストする MultiPL-E ベンチマークでは、FuseLLM は 10 タスク中 9 タスクで Llama-2 を上回り、平均 6.36% のパフォーマンス向上を達成しました。 FuseLLM が MPT および OpenLLaMA を超えない理由は、ターゲットの大規模言語モデルとして Llama-2 を使用しているためである可能性があります。Llama-2 は、コード生成機能が弱く、継続学習コーパス内のコード データの割合が低く、約7.59%。 Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

知識質問回答 (TrivialQA)、読解力 (DROP)、内容分析 (LAMBADA)、機械翻訳 (IWSLT2017)、定理適用 (SciBench) を測定する複数のテキスト生成ベンチマーク、FuseLLMまた、すべてのタスクですべてのソース モデルを上回り、タスクの 80% で Llama-2 CLM を上回ります。

# ディレクティブは

## に従います。FuseLLM のみなので、融合のために複数のソース モデルの表現を抽出し、ターゲット モデルを継続的にトレーニングする必要があるため、大規模な言語モデルを微調整する命令の融合にも適用できます。命令追従能力を評価する Vicuna Benchmark でも、FuseLLM はすべてのソース モデルと CLM を上回る優れたパフォーマンスを達成しました。

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

FuseLLM と知識の蒸留、モデルの統合、重み付けのマージ

知識の蒸留は、大規模な言語モデルのパフォーマンスを向上させるための表現を使用する方法でもあることを考慮して、著者は FuseLLM と Llama-2 13B で蒸留された Llama-2 KD を比較しました。結果は、FuseLLM が、異なるアーキテクチャを持つ 3 つの 7B モデルを融合することにより、単一の 13B モデルからの蒸留よりも優れたパフォーマンスを発揮することを示しています。

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

FuseLLM を既存の融合手法 (モデル アンサンブルや重みマージなど) と比較するために、著者は同じ構造ベース モデルから複数のソース モデルをシミュレートしました。しかし、さまざまなコーパスで継続的にトレーニングし、さまざまなテストベンチマークでさまざまな方法の複雑さをテストしました。すべての融合手法は複数のソース モデルの利点を組み合わせることができますが、FuseLLM は最も低い平均パープレキシティを達成できることがわかります。これは、FuseLLM がモデル アンサンブルおよび重みマージ手法よりも効果的にソース モデルの集合的な知識を組み合わせる可能性があることを示しています。

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

最後に、コミュニティは大規模モデルの融合に注目していますが、現在の実践は主に重みのマージに基づいており、異なる構造やサイズのモデル融合シナリオに拡張することはできません。 FuseLLM は異種モデルの融合に関する予備研究にすぎませんが、技術コミュニティには現在、さまざまな構造やサイズの言語、視覚、音声、およびマルチモーダルの大きなモデルが多数存在することを考慮すると、これらの異種モデルの融合はどのようなものになるでしょうか。未来に爆発?驚異のパフォーマンス?様子を見てみましょう!

以上が複数の異種大規模モデルの融合が驚くべき結果をもたらすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

WorldCoin(WLD)価格予測2025-2031:WLDは2031年までに4ドルに達しますか? WorldCoin(WLD)価格予測2025-2031:WLDは2031年までに4ドルに達しますか? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏​​しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか? WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

Web3トレーディングプラットフォームranking_web3グローバル交換トップ10の概要 Web3トレーディングプラットフォームranking_web3グローバル交換トップ10の概要 Apr 21, 2025 am 10:45 AM

Binanceは、グローバルデジタルアセット取引エコシステムの大君主であり、その特性には次のものが含まれます。1。1日の平均取引量は1,500億ドルを超え、500の取引ペアをサポートし、主流の通貨の98%をカバーしています。 2。イノベーションマトリックスは、デリバティブ市場、Web3レイアウト、教育システムをカバーしています。 3.技術的な利点は、1秒あたり140万のトランザクションのピーク処理量を伴うミリ秒のマッチングエンジンです。 4.コンプライアンスの進捗状況は、15か国のライセンスを保持し、ヨーロッパと米国で準拠した事業体を確立します。

通貨サークルでのレバレッジされた交換のランキングは 通貨サークルでのレバレッジされた交換のランキングは Apr 21, 2025 pm 11:24 PM

2025年のレバレッジド取引、セキュリティ、ユーザーエクスペリエンスで優れたパフォーマンスを持つプラットフォームは次のとおりです。1。OKX、高周波トレーダーに適しており、最大100倍のレバレッジを提供します。 2。世界中の多通貨トレーダーに適したバイナンス、125倍の高いレバレッジを提供します。 3。Gate.io、プロのデリバティブプレーヤーに適し、100倍のレバレッジを提供します。 4。ビットゲットは、初心者やソーシャルトレーダーに適しており、最大100倍のレバレッジを提供します。 5。Kraken、安定した投資家に適しており、5倍のレバレッジを提供します。 6。Altcoinエクスプローラーに適したBybit。20倍のレバレッジを提供します。 7。低コストのトレーダーに適したKucoinは、10倍のレバレッジを提供します。 8。ビットフィネックス、シニアプレイに適しています

クロスチェーントランザクションとはどういう意味ですか?クロスチェーントランザクションとは何ですか? クロスチェーントランザクションとはどういう意味ですか?クロスチェーントランザクションとは何ですか? Apr 21, 2025 pm 11:39 PM

クロスチェーントランザクションをサポートする交換:1。Binance、2。Uniswap、3。Sushiswap、4。CurveFinance、5。Thorchain、6。1inchExchange、7。DLNTrade、これらのプラットフォームはさまざまな技術を通じてマルチチェーン資産トランザクションをサポートします。

トップ10の暗号通貨交換プラットフォーム世界最大のデジタル通貨交換リスト トップ10の暗号通貨交換プラットフォーム世界最大のデジタル通貨交換リスト Apr 21, 2025 pm 07:15 PM

交換は、今日の暗号通貨市場で重要な役割を果たしています。それらは、投資家が取引するためのプラットフォームであるだけでなく、市場の流動性と価格発見の重要なソースでもあります。世界最大の仮想通貨交換はトップ10にランクされており、これらの交換は取引量がはるかに先を行っているだけでなく、ユーザーエクスペリエンス、セキュリティ、革新的なサービスに独自の利点を持っています。リストの上にある交換は通常、ユーザーベースが大きく、広範な市場の影響力があり、その取引量と資産タイプは、他の取引所で到達するのが難しいことがよくあります。

なぜ仮想通貨価格の上昇または下落があるのですか?なぜ仮想通貨価格の上昇または下落があるのですか? なぜ仮想通貨価格の上昇または下落があるのですか?なぜ仮想通貨価格の上昇または下落があるのですか? Apr 21, 2025 am 08:57 AM

仮想通貨価格の上昇の要因には、次のものが含まれます。1。市場需要の増加、2。供給の減少、3。刺激された肯定的なニュース、4。楽観的な市場感情、5。マクロ経済環境。衰退要因は次のとおりです。1。市場需要の減少、2。供給の増加、3。ネガティブニュースのストライキ、4。悲観的市場感情、5。マクロ経済環境。

通貨交換サークルのトップ10のプラットフォームは何ですか? 通貨交換サークルのトップ10のプラットフォームは何ですか? Apr 21, 2025 pm 12:21 PM

上位の交換には、次のものが含まれます。1。世界最大の取引量であるバイナンスは600通貨をサポートし、スポット処理料は0.1%です。 2。バランスの取れたプラットフォームであるOKXは、708の取引ペアをサポートし、永続的な契約処理手数料は0.05%です。 3。Gate.io、2700の小通貨をカバーし、スポット処理料は0.1%-0.3%です。 4。Coinbase、米国のコンプライアンスベンチマーク、スポット処理料は0.5%です。 5。Kraken、トップセキュリティ、および定期的な予備監査。

カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 Apr 21, 2025 pm 01:03 PM

暗号通貨の賑やかな世界では、新しい機会が常に現れます。現在、Kerneldao(Kernel)Airdropアクティビティは多くの注目を集め、多くの投資家の注目を集めています。それで、このプロジェクトの起源は何ですか? BNBホルダーはそれからどのような利点を得ることができますか?心配しないでください、以下はあなたのためにそれを一つ一つ明らかにします。

See all articles