首頁 科技週邊 人工智慧 混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合

混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合

Aug 11, 2024 pm 01:02 PM
工程 混合專家

混合專家,也得術業有專攻。


對於目前的混合模態基礎模型,常用的架構設計是融合特定模態的編碼器或解碼器,但這種方法存在局限:無法整合不同模態的信息,也難以輸出包含多種模態的內容。

為了克服這一局限,Meta FAIR 的Chameleon 團隊在近期的論文《Chameleon: Mixed-modal early-fusion foundation models》中提出了一種新的單一Transformer 架構,它可以根據下一個token 的預測目標,對由離散影像和文字token 組成的混合模態序列進行建模,從而在不同模態之間進行無縫推理和生成。

混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合

在約 10 兆混合模態 token 上完成預訓練之後,Chameleon 表現出了適應廣泛的視覺和語言能力,能很好地處理多種不同的下游任務。 Chameleon 在產生混合模態長回答任務的表現尤其亮眼,它甚至打敗了 Gemini 1.0 Pro 和 GPT-4V 等商用模型。然而對於 Chameleon 這樣各種模態會在模型訓練的早期混合起來的模型,想要拓展它的能力,需要投入大量算力。

基於以上問題,Meta FAIR 的團隊對路由式稀疏架構(routed sparse architecture)進行了一番研究探索,提出了 MoMa:模態感知型專家混合架構。

混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合

  • 論文タイトル: MoMa: Mixture of Modality-Aware Expertsによる効率的な初期融合事前トレーニング
  • 論文アドレス: https://arxiv.org/pdf/2407.21770

これまでの研究は、このタイプのアーキテクチャがシングルモーダル基本モデルの機能を効果的に拡張し、マルチモーダル対照学習モデルのパフォーマンスを向上できることを示しました。ただし、さまざまなモダリティを統合した初期モデルのトレーニングにこれを使用することは、依然として機会と課題の両方を伴うトピックであり、研究している人はほとんどいません。

チームの研究は、さまざまなモダリティは本質的に異種であるという洞察に基づいています。テキストと画像のトークンは異なる情報密度と冗長パターンを持っています。

これらのトークンを統合融合アーキテクチャに統合する一方で、チームは、特定のモダリティ用のモジュールを統合することでフレームワークをさらに最適化することも提案しました。チームは、この概念をモダリティ認識スパース性 (略して MaS) と呼びます。これにより、モデルは部分的なパラメーター共有とアテンション メカニズムを使用して、強力なクロスモーダル統合パフォーマンスを維持できます。

VLMo、BEiT-3、VL-MoE などのこれまでの研究では、視覚言語エンコーダーとマスク言語構築モデルをトレーニングするために混合モダリティ エキスパート (MoME/mixture-of-modality-experts) 手法が採用されてきました。 FAIR の研究チームは、MoE の利用可能な範囲をさらに一歩進めました。

モデルアーキテクチャ

初期融合

この記事で提案される新しいモデルは、画像とテキストを統一的に1つに表現するChameleonの初期融合アーキテクチャに基づいています。トランスフォーマー 一連の個別のトークン。 Chameleon の核心は、画像とテキストのトークンの組み合わせシーケンスにセルフ アテンション メカニズムを適用する Transformer ベースのモデルです。これにより、モデルはモダリティ内およびモダリティ間の複雑な相関関係を捉えることができます。このモデルは、次のトークンを予測することを目的としてトレーニングされ、自己回帰的にテキストと画像のトークンを生成します。

Chameleon では、画像のトークン化スキームは学習画像トークナイザーを使用し、サイズ 8192 のコードブックに基づいて 512 × 512 の画像を 1024 個の個別のトークンにエンコードします。テキストのセグメンテーションには、画像トークンを含む語彙サイズ 65,536 の BPE トークナイザーが使用されます。この統合された単語セグメンテーション手法により、モデルは絡み合った画像とテキストのトークンのあらゆるシーケンスをシームレスに処理できます。

この方法により、新しいモデルは、統一表現、優れた柔軟性、高いスケーラビリティ、およびエンドツーエンド学習のサポートという利点を継承します。

これに基づいて (図 1a)、初期融合モデルの効率とパフォーマンスをさらに向上させるために、チームはモダリティを意識したスパース技術も導入しました。

混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合

幅スケーリング:モダリティを意識したハイブリッドエキスパート

チームは、幅スケーリング方法を提案しています:モダリティを意識したモジュールのスパース性をフォワードモジュールに統合し、それによって標準ハイブリッドエキスパート(MoE)アーキテクチャをスケーリングします。 。

この方法は、異なるモードのトークンには異なる特性と情報密度があるという洞察に基づいています。

モダリティごとに異なる専門家グループを構築することにより、モデルは、クロスモーダル情報統合機能を維持しながら、特殊な処理パスを開発できます。

図 1b は、このモダリティを意識した専門家の混合 (MoMa) の主要なコンポーネントを示しています。簡単に言うと、まず特定のモダリティごとの専門家がグループ化され、次に階層型ルーティングが実装され(モダリティを意識したルーティングとモーダル内ルーティングに分けられます)、最後に専門家が選択されます。詳細なプロセスについては元の論文を参照してください。

一般に、入力トークン x の場合、MoMa モジュールの正式な定義は次のとおりです:

混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合

MoM​​a の計算後、チームはさらに残留接続と Swin Transformer の正規化を使用しました。


深度混合 (MoD)

以前の研究者は、特定の層をランダムに破棄するか、利用可能な学習ルーターを使用するというアプローチで深度次元にスパース性を導入することも検討していました。 。

チームのアプローチは 2 番目の方法を参照しており、最近提案されたハイブリッド デプス (MoD) テクノロジーを統合しています。 MoDの詳細については、当サイトのレポート「DeepMindがTransformerをアップグレード、フォワードパスのFLOPが最大半分に削減可能」を参照してください。

具体的には、以下の図に示すように、チームのアプローチは、ハイブリッド エキスパート (MoE) ルーティングの前に各 MoD レイヤーで MoD を統合し、それによってデータのバッチ全体が確実に MoD を使用できるようにすることです。

混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合

推論

推論フェーズでは、top-k (上位 k の選択) がデータのバッチで実行されるため、MoE のエキスパート選択ルーティングや MoD のレイヤー選択ルーティングを直接使用することはできません。 ) 選択は因果関係を破壊します。

推論の因果関係を確実にするために、研究チームは、上記の国防省の論文に触発されて、トークンが特定の者によって選択されることを予測する役割を持つ補助ルーター(補助ルーター)を導入しました。トークンの可能性の隠された表現のみに基づくエキスパートまたはレイヤー。

アップサイクル

表現空間とルーティングメカニズムの最適化という点で、ゼロからトレーニングされた MoE アーキテクチャには特有の困難があります。チームは、MoE ルーターが各専門家の表現スペースを分割する役割を担っていることを発見しました。ただし、モデル トレーニングの初期段階では、この表現空間は最適ではないため、トレーニングによって得られるルーティング関数が最適ではなくなります。

この制限を克服するために、彼らは小松崎らの論文「Sparse upcycling: Training mix-of-experts fromdensense Checkpoints」に基づいたアップグレード方法を提案しました。

混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合

具体的には、まずモダリティごとに 1 人の FFN エキスパートを使用してアーキテクチャをトレーニングします。いくつかの事前設定されたステップの後、モデルはアップグレードされ、変換されます。具体的な方法は、各特定のモダリティの FFN を専門家が選択した MoE モジュールに変換し、各エキスパートをトレーニングの第 1 段階に初期化することです。これにより、前のステージのデータ ローダーの状態を保持しながら学習率スケジューラがリセットされ、更新されたデータがトレーニングの第 2 ステージで使用できるようになります。

エキスパートの専門化を促進するために、チームはガンベル ノイズを使用して MoE ルーティング機能を強化し、新しいルーターが微分可能な方法でエキスパートをサンプリングできるようにしました。

このアップグレード方法と Gumbel-Sigmoid テクノロジーを組み合わせることで、学習済みルーターの制限を克服でき、それによって新しく提案されたモダリティ認識スパース アーキテクチャのパフォーマンスが向上します。

効率の最適化

MoMa の分散トレーニングを促進するために、チームは完全シャーディング データ並列 (FSDP/完全シャーディング データ並列) を採用しました。ただし、従来の MoE と比較すると、この方法には負荷分散の問題やエキスパート実行の効率の問題など、効率に関する特有の課題がいくつかあります。

負荷分散の問題について、チームは、各 GPU でのテキストと画像のデータ比率をエキスパート比率と一致させるバランスのとれたデータ混合方法を開発しました。

エキスパート実行の効率に関して、チームは、さまざまなモダリティでのエキスパートの実行効率を向上させるのに役立ついくつかの戦略を検討しました:

  • 各モダリティのエキスパートを同種のエキスパートに制限し、次のことを禁止します。テキスト トークンを画像エキスパートにルーティングする、またはその逆。
  • ブロック スパース性を使用して実行効率を向上させます。
  • モダリティの数が制限されている場合は、シーケンス エキスパートで異なるモダリティを実行します。

実験の各 GPU は十分なトークンを処理したため、複数のバッチ行列乗算が使用された場合でも、ハードウェア使用率は大きな問題になりません。したがって、チームは、現在の規模の実験環境では逐次実行方法がより良い選択であると考えています。

その他の最適化

スループットをさらに向上させるために、チームは他の最適化手法も採用しました。

これには、勾配通信量の削減や自動 GPU コア融合などの一般的な最適化操作も含まれます。研究チームは、torch.compile を介してグラフの最適化も実装しました。

さらに、CPU と GPU 間でデバイスを最も効率的に同期するために、さまざまなレイヤー間でモーダル トークン インデックスを再利用するなど、MoMa 用のいくつかの最適化手法を開発しました。

実験

設定

実験で使用される事前学習データセットと前処理プロセスはChameleonと同じです。スケーリングのパフォーマンスを評価するために、1 兆を超えるトークンを使用してモデルをトレーニングしました。

混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合

表 1 に、密モデルと疎モデルの詳細な構成を示します。

さまざまなコンピューティングレベルでのスケーリングパフォーマンス

チームは、さまざまなコンピューティングレベルでのさまざまなモデルのスケーリングパフォーマンスを分析しました。これらのコンピューティングレベル (FLOP) は、90M、435M の 3 つのサイズの高密度モデルに相当します。そして1.4B。

実験結果は、疎モデルが合計 FLOP の 1/η のみを使用して、同等の FLOP を持つ密モデルの事前トレーニング損失と一致できることを示しています (η は事前トレーニング加速係数を表します)。

モーダルアンバンドリング

モダリティ固有のエキスパートグループ化を導入すると、さまざまなサイズのモデルの事前トレーニング効率を向上させることができ、これは画像モダリティにとって特に有益です。図 3 に示すように、1 つの画像エキスパートと 1 つのテキスト エキスパートを使用する moe_1t1i 構成は、対応する高密度モデルよりも大幅に優れています。

混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合

各モーダル グループのエキスパートの数を増やすと、モデルのパフォーマンスをさらに向上させることができます。

専門家とのハイブリッドの深さ

チームは、MoE と MoD、およびそれらを組み合わせた形式を使用すると、トレーニング損失の収束速度が向上することを観察しました。図 4 に示すように、MoD (mod_moe_1t1i) を moe_1t1i アーキテクチャに追加すると、さまざまなモデル サイズにわたってモデルのパフォーマンスが大幅に向上します。

混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合

さらに、mod_moe_1t1i は、さまざまなモデル サイズやモードで moe_4t4i に匹敵するか、さらに上回ることができます。これは、深さ次元にスパース性を導入することによってトレーニング効率も効果的に向上できることを示しています。

その一方で、MoDとMoEを重ねるメリットが徐々に減っていくこともわかります。

専門家の数の拡大

専門家の数の拡大の影響を研究するために、チームはさらなるアブレーション実験を実施しました。彼らは、各モダリティに同数の専門家を割り当てる (バランスがとれた) 場合と、各モダリティに異なる数の専門家を割り当てる (アンバランスがとれた) という 2 つのシナリオを検討しました。結果を図 5 に示します。

混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合

バランスの取れた設定では、エキスパートの数が増加するにつれて、トレーニング損失が大幅に減少することが図 5a からわかります。ただし、テキストと画像の損失は異なるスケーリング パターンを示します。これは、各モダリティの固有の特性が異なるスパース モデリング動作につながることを示唆しています。

アンバランス設定の場合、図 5b は、エキスパートの総数が同等 (8 人) の 3 つの異なる構成を比較しています。モダリティ内の専門家が多いほど、一般にそのモダリティでのモデルのパフォーマンスが向上することがわかります。

アップグレードと変革

チームは当然ながら、前述のアップグレードと変革の効果を検証しました。図 6 は、さまざまなモデル バリアントのトレーニング カーブを比較しています。

混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合

この結果は、アップグレードによって実際にモデルのトレーニングがさらに改善されることを示しています。最初のステージのステップ数が 10k の場合、アップグレードにより FLOP のメリットは 1.2 倍になり、ステップ数が 20k の場合は 1.16 倍になります。 FLOP が返されます。

さらに、トレーニングが進むにつれて、アップグレードされたモデルと最初からトレーニングされたモデルとの間のパフォーマンスの差が拡大し続けることが観察できます。

スループット分析

疎モデルはダイナミクスとそれに関連するデータバランシングの問題を増大させるため、多くの場合、すぐにはパフォーマンスが向上しません。新しく提案された方法がトレーニング効率に及ぼす影響を定量化するために、チームは、通常制御される変数を使用した実験で、さまざまなアーキテクチャのトレーニング スループットを比較しました。結果を表2に示す。

混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合

密モデルと比較して、モーダルベースのスパース パフォーマンスは、より優れた品質とスループットのトレードオフを達成し、エキスパートの数が増加するにつれて妥当なスケーラビリティを示すことができることがわかります。一方、MoD バリアントは最高の絶対損失を実現しますが、追加のダイナミクスと不均衡により計算コストが高くなる傾向もあります。

推論時間のパフォーマンス

チームはまた、保持された言語モデリングデータと下流タスクにおけるモデルのパフォーマンスも評価しました。結果を表3および表4に示す。
混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合
表 3 に示すように、複数の画像エキスパートを使用することにより、1.4B MoMa 1t1i モデルは、COCO および Flickr の例外における画像からテキストへの条件付きパープレキシティ メトリクスを除き、ほとんどのメトリクスで対応する高密度モデルよりも優れています。エキスパートの数をさらに増やすことでパフォーマンスも向上し、14 億 MoE 8x で最高の画像からテキストへのパフォーマンスを実現します。

さらに、表 4 に示すように、1.4B MoE 8x モデルはテキスト間のタスクにも非常に優れています。 1.4B MoMa 4t4i は、すべての条件付き画像パープレキシティ メトリクスで最高のパフォーマンスを発揮しますが、ほとんどのベンチマークでのテキストパープレキシティも 1.4B MoE 8x に非常に近いです。

一般に、1.4B MoMa 4t4i モデルは、テキストと画像の混合モダリティで最良のモデリング結果をもたらします。

詳しくは原論文をお読みください。

以上是混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1319
25
PHP教程
1269
29
C# 教程
1248
24
ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

LLM用於時序預測真的不行,連推理能力都沒用到 LLM用於時序預測真的不行,連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

See all articles