LLM は非常に強力であり、LLM の持続的な拡大を達成するには、その効率を向上できる方法を見つけて実装する必要があります。ハイブリッド専門家 (MoE) は、この種の方法の重要なメンバーです。
最近、さまざまなテクノロジー企業が提案する新世代の大規模モデルはすべて、Mixture of Experts (MoE) 手法を使用しています。
ハイブリッド エキスパートの概念は、1991 年の論文「ローカル エキスパートの適応的混合」で初めて誕生しました。それは 30 年以上にわたって広範囲に調査され、開発されてきました。近年、スパースゲート MoE の出現と開発により、特に Transformer に基づく大規模言語モデルと組み合わせた場合、この 30 年以上の歴史のあるテクノロジーは新たな命を吹き込まれています。
MoE フレームワークは、シンプルだが強力なアイデアに基づいています。つまり、モデルのさまざまな部分 (エキスパートと呼ばれます) が、さまざまなタスクやデータのさまざまな側面に焦点を当てています。
このパラダイムを使用すると、入力に対して、それに関連する専門家のみが処理に参加するため、大量の専門知識の恩恵を受けながら、計算コストを制御できます。したがって、MoE は、計算要件を大幅に増加させることなく、大規模な言語モデルの機能を向上させることができます。
図 1 に示すように、特に 2024 年の Mixtral-8x7B や Grok-1、DBRX、Arctic、DeepSeek-V2 などのさまざまな産業レベルの LLM の出現後、MoE 関連の研究は大幅に成長しました。
この写真は、香港科技大学(広州)の研究チームが最近発表したMoEレビューレポートからのもので、これはMoE関連の研究を明確かつ包括的に要約しており、これらの研究を提案しています。アルゴリズム、システム、アプリケーションの 3 つのカテゴリに分類されます。
論文タイトル: 専門家の混合に関する調査
論文アドレス: https://arxiv.org/pdf/2407.06204
このサイトは、このレビューレポートの主な内容をまとめています。 MoE の現在の開発概要を読者が理解できるように、詳細については元の論文をお読みください。さらに、記事の最後には環境省関連のレポートもいくつかまとめました。
ハイブリッド エキスパートの背景知識
Transformer ベースの大規模言語モデル (LLM) では、各ハイブリッド エキスパート (MoE) 層の構成は通常、「エキスパート ネットワーク」{?_1, ... , ?_ ?} 「ゲート ネットワーク」G とペアになります。
このゲート ネットワークは通常、ソフトマックス活性化関数を使用した線形ネットワークの形式であり、その役割は入力を適切なエキスパート ネットワークに導くことです。 MoE 層は Transformer モジュール内に配置され、その機能は、通常、セルフ アテンション (SA) サブ層の後に配置されるフォワード ネットワーク (FFN) を選択することです。モデルが成長するにつれて、FFN の計算要件が増加するため、この配置は重要です。たとえば、5,400 億個のパラメータを持つ PaLM モデルでは、パラメータの 90% が FFN 層にあります。
数学的形式で説明: 各エキスパート ネットワーク ?_? (通常は線形 - ReLU - 線形ネットワーク) は、同じ入力 x を受け取り、出力 ?_? (x; W_? ) を生成します。同時に、パラメーター Θ を持つゲート ネットワーク G (通常、線形-ReLU-線形-ソフトマックス ネットワークで構成される) は出力 G (x; Θ) を取得します。ゲーティング機能の設計方法により、MoE 層は次の 2 つに大別されます。
Dense MoE
高密度混合エキスパート層は、各反復中にすべてのエキスパート ネットワーク {?_1, ... , ?_?} をアクティブ化します。 MoE の初期の研究では、この戦略が一般的に採用されていました。最近では、EvoMoE、MoLE、LoRAMoE、DS-MoE などの高密度 MoE を使用する研究がいくつかあります。図 2a は、高密度 MoE 層の構造を示しています。したがって、高密度 MoE 層の出力は次のように表すことができます:
ここで、?(x; Θ) はソフトマックス演算前のゲート値です。
Sparse MoE
一般に、密混合エキスパートの予測精度は高くなりますが、その計算負荷も非常に高くなります。
この問題を解決するために、Shazeer らの論文「法外に大規模なニューラル ネットワーク: まばらにゲートされた混合専門家層」では、各転送で選択されたネットワークのみをアクティブ化できるまばらにゲートされた MoE 層が導入されています。一部の専門家は合格します。この戦略は、すべてのエキスパートの出力を集約するのではなく、上位 k 人のエキスパートの出力の加重合計を計算することで、スパース性を実現します。図 2b は、そのような疎な MoE 層の構造を示しています。
上記の論文で提案されているフレームワークによれば、スパース ゲート メカニズムを反映するように式 2.2 を変更できます。
ここでの説明: TopK (・, ?) 関数は、ベクトルの元の値の最初の k 項目のみを保持し、他の項目を −∞ に設定します。これにソフトマックス演算が続き、すべての −∞ 項がほぼゼロになります。ハイパーパラメータ k は、特定のアプリケーションに応じて選択する必要があります。一般的なオプションは ? = 1 または ? = 2 です。ノイズ項 R_noise を追加することは、まばらにゲートされた MoE 層をトレーニングするための一般的な戦略であり、専門家間の探索を促進し、MoE トレーニングの安定性を向上させます。
スパース ゲーティング G (x; Θ) は、対応する計算コストを増加させることなくモデルのパラメーター空間を大幅に拡張できますが、負荷分散の問題を引き起こす可能性もあります。負荷分散の問題は、エキスパート間の負荷の不均等な分散を指します。頻繁に使用されるエキスパートもいれば、めったに使用されない、またはまったく使用されないエキスパートもいます。
この問題を解決するには、各 MoE レイヤーは補助的な損失関数を統合する必要があります。その役割は、トークンの各バッチが各専門家に均等に分配されるように促すことです。数学的形式の記述から、まず T 個のトークン B = {x_1, x_2, ..., x_?} と N 個のエキスパートを含むクエリ バッチを定義します。次に、その補助負荷分散損失は次のように定義されます:
ここで、D_i はエキスパート i に割り当てられたトークンの割合、P_i はエキスパート i に割り当てられたゲート確率の割合です。バッチが N 人のエキスパート間で均等に分散されるようにするには、負荷分散損失関数 L_{load-balancing} を最小限に抑える必要があります。各エキスパートに同じ数のトークン D_? = 1/? と同じゲート確率 P_? = 1/? が割り当てられると、最適な条件に達します:
このとき、各エキスパートの負荷はバランスに達します。 。
以下では、特に明記されていない限り、「MoE」という用語は「疎な MoE」のみを指します。
ハイブリッド専門家の分類
研究者が MoE を大量に使用する LLM 研究でターゲットを見つけられるようにするために、チームは、アルゴリズム設計、システム設計、およびアプリケーション。
図 3 は、この分類方法といくつかの代表的な研究結果を示しています。
以下では、各カテゴリについて包括的かつ詳細に説明します。
混合エキスパートのアルゴリズム設計
ゲート関数
ゲート関数 (ルーティング関数またはルーターとも呼ばれる) は、すべての MoE アーキテクチャの基本コンポーネントであり、その役割は、エキスパート計算の使用を調整し、エキスパートを結合することです。出力。
ゲートは各入力の処理方法に応じて、スパース、デンス、ソフトの 3 つのタイプに分類できます。スパース ゲート メカニズムは一部のエキスパートをアクティブにし、デンス ゲート メカニズムはすべてのエキスパートをアクティブにし、ソフト ゲート メカニズムには入力トークン フュージョンやエキスパート フュージョンなどの完全に微分可能な方法が含まれます。図 4 は、MoE モデルで使用されるさまざまなゲート関数を示しています。スパース ゲート機能は、各入力トークンを処理するときに選択されたエキスパートをアクティブ化します。これは、条件付き計算の一種とみなすことができます。
ゲート関数は、バイナリ意思決定、疎または連続意思決定、ランダムまたは決定論的意思決定など、さまざまな形式のゲート決定を実装できます。これは詳細に研究されており、さまざまな形式の強化学習および反転を使用できます。広げてトレーニングします。
Shazeer らの研究「法外に大規模なニューラル ネットワーク: スパースリー ゲートの混合エキスパート層」は、エキスパートの計算の出力が重み付けされる、補助負荷分散損失を使用した微分可能なヒューリスティック手法の先駆者です。これにより、ゲート プロセスに微分可能性が導入され、それにより、勾配によってゲート関数の最適化を導くことができます。
疎な MoE には効率の点で利点がありますが、密な MoE の方向性は依然として革新を歓迎しています。特に、高密度アクティベーションは、LoRA 専門家にとって比較的低い計算オーバーヘッドで、LoRA-MoE の微調整で優れたパフォーマンスを発揮します。このアプローチにより、複数の LoRA を効率的かつ柔軟に統合して、さまざまな下流タスクを完了できます。これにより、各タスクの各 LoRA の固有の特性を維持しながら、元の事前トレーニングされたモデルの生成機能が維持されます。
ソフトフォーミュラ
疎MoEの場合、基本的な離散最適化の問題は、どの適切な専門家を各トークンに割り当てるかを決定する方法です。バランスの取れた専門家の参加を確保し、未割り当てのトークンを最小限に抑えるには、多くの場合、ヒューリスティック支援による損失が必要になります。この問題は、分布外データ (小さな推論バッチ、新規入力、転移学習など) が関係するシナリオで特に重要です。
高密度 MoE と同様に、ソフト MoE メソッドも各入力を処理するときにすべてのエキスパートを使用するため、完全な微分可能性が維持され、離散エキスパート選択メソッドに固有の問題が回避されます。ソフト MoE と高密度 MoE の違いは、前者は入力トークンまたはエキスパートのゲートおよび重み付けされた融合を通じて計算要件を軽減することです。
専門家
このセクションでは、MoE フレームワーク内の専門家ネットワークのアーキテクチャを紹介し、これらの専門家の活性化を調整するゲート機能について説明します。
ネットワーク タイプ
MoE は Transformer アーキテクチャに統合されているため、多くの場合、これらのモデルではフォワード ネットワーク (FFN) モジュールが置き換えられます。通常、MoE レイヤの各専門家は、置き換える FFN のアーキテクチャを複製します。
FFN をエキスパートとして使用するというこのパラダイムは依然として主流ですが、多くの改良も加えられています。
ハイパーパラメータ
疎 MoE モデルのスケールは、以下を含むいくつかの重要なハイパーパラメータによって制御されます。
MoE レイヤーごとのエキスパートの数
各エキスパートのサイズ
MoE 方法頻繁にレイヤーはモデル全体に配置されます
これらのハイパーパラメーターの選択は、さまざまなタスクにおけるモデルのパフォーマンスと計算効率に大きく影響するため、非常に重要です。したがって、特定のアプリケーション要件とコンピューティング インフラストラクチャに基づいて、最適なハイパーパラメーターが選択されます。表 2 に、MoE を使用するモデルの構成の一部を示します。
さらに、表 3 に、いくつかの最近のオープンソース モデルのパラメーターの数とベンチマーク パフォーマンスを示します。
アクティベーション関数
高密度Transformerアーキテクチャ上に構築されたスパースMoEモデルは、BERT、T5、GPT、LLAMAなどの主要なデンスLLMと同様のアクティベーション関数を採用しています。アクティベーション機能は ReLU から、GeLU、GeGLU、SwiGLU などのより高度なオプションに進化しました。
この傾向は、MoE モデルの他のコンポーネントにも拡張されており、多くの場合、二乗平均二乗レイヤー正規化 (RMSNorm)、グループ化クエリ アテンション (GQA)、回転位置埋め込み (RoPE) などの技術が組み込まれています。
共有エキスパート
DeepSpeed-MoE は Residual-MoE (Residual-MoE) アーキテクチャを革新的に導入しています。このアーキテクチャでは、各トークンが固定エキスパートとゲート選択エキスパートによって処理され、それぞれの目的を達成するために 2 人のエキスパートが関与しています。各層での処理が可能であり、通信コストはトップ1ゲート方式を超えません。このアプローチは、ゲーティングで選択された MoE エキスパートを固定密 FFN の誤り訂正補助として扱います。
NLLB で使用される条件付き MoE ルーティング (CMR/Conditional MoE Routing) も同様のアプローチを採用し、高密度 FFN 層と MoE 層の出力を組み合わせます。
図 5b に示すように、固定 FFN とスパース MoE を統合するパラダイムは、共有エキスパートと呼ばれることがよくあります。
DeepSeekMoE、OpenMoE、Qwen1.5-MoE、MoCLE などのモデルは最近このパラダイムを採用しており、主流の構成になりつつあることを示しています。ただし、DeepSeekMoE と Qwen1.5-MoE は、単一のエキスパートではなく複数の共有エキスパートを使用します。
ハイブリッド パラメータ効率の良い微調整のエキスパート
パラメータ効率の良い微調整 (PEFT) は、微調整の効率を向上させる方法です。簡単に言えば、PEFT は微調整中にベース モデルのパラメーターのごく一部のみを更新します。
PEFT は成功しますが、訓練可能なパラメーターが限られており、致命的な忘却の問題が発生する可能性があるため、この方法は複数のタスクへの一般化が必要な状況で使用するのが困難です。
これらの制限を軽減するために、MoE フレームワークと PEFT を統合する Mixed Parameter Efficient Expert (MoPE) が誕生しました。 MoPE は MoE のゲート メカニズムとマルチエキスパート アーキテクチャを統合しており、各エキスパートは PEFT テクノロジーを使用して構築されています。この賢い組み合わせにより、マルチタスク シナリオにおける PEFT のパフォーマンスが大幅に向上します。さらに、エキスパートの構築に PEFT が使用されるため、MoPE は使用するパラメーターも少なくなり、従来の MoE モデルよりもリソース効率が大幅に向上します。
MoPE は、MoE のマルチタスク特性と PEFT のリソース効率を組み合わせたもので、非常に有望な研究方向です。図 6 は、Transformer モデル アーキテクチャ内の位置に従って MoPE を分類しています。 MoPE に関する研究結果のより詳細な紹介については、元の論文を参照してください。
トレーニングおよび推論ソリューション
ハイブリッドエキスパートは進歩および発展しており、関連するトレーニングおよび推論ソリューションも進歩および発展しています。
初期のトレーニングと推論のソリューションでは、MoE モデルを最初からトレーニングし、トレーニングされたモデル構成を直接使用して推論を実行する必要があります。
しかし現在、密モデルと疎モデルの利点を組み合わせて相互に補完するなど、MoE モデルのトレーニングと推論において多くの新しいパラダイムが出現しています。
図 7 は、MoE に関連するトレーニングと推論のソリューションを示しています。新しいソリューションは 3 つのカテゴリに分類できることがわかります:
密から疎へ: 密モデルのトレーニングから始まり、徐々に疎へ移行します。 MoE 構成;
疎な MoE モデルを密な形式にダウングレードすることを含み、これは推論をハードウェア形式に実装するのに有益です。
エキスパート モデルの融合: 複数の事前トレーニングされた密なエキスパート モデルを統合します。 1 つの統合 MoE モデル。
MoE からの派生テクノロジー
混合専門家 (MoE) は、多くの異なる派生テクノロジーにインスピレーションを与えてきました。たとえば、Xue らの論文「深くなるのではなく広くする」では、モデル幅を拡大した WideNet を提案しており、その方法は、トランスフォーマ層の共有トレーニング可能性を維持しながら、フォワード ネットワーク (FFN) を MoE 層に置き換えることです。ただし、正規化層は除きます。
この他に、Tanらの提案するSYT(Sparse Universal Transformer)、Antoniakらの提案するMoT(Hybrid Token)、Choiらの提案するSMoP(Sparse Mixed Prompter)、Chenらの提案がある。 Lifelong-MoE、Raposoらの提案するMoD(混合深度)など
要約すると、教育省由来の技術の発展は傾向を明らかにしています。教育省はますます多くの機能を持ち、さまざまな分野への適応性がますます高まっています。
混合エキスパートのシステム設計
混合エキスパート (MoE) は大規模な言語モデルの機能を強化できますが、まばらで動的な計算負荷のため、新たな技術的課題ももたらします。
GShard はエキスパート並列処理を導入しており、エキスパート機能の負荷分散制約に従ってセグメント化された部分トークンをスケジュールできるため、並列ゲートとエキスパート計算を実現できます。このパラダイムは、MoE モデルの効率的なスケーリングを促進するための基本的な戦略となっています。このアプローチは、データ並列処理の拡張バージョンと考えることができます。MoE レイヤーの各エキスパートは異なるデバイスに割り当てられ、すべての非エキスパートレイヤーはすべてのデバイス上で複製されます。
図 8a に示すように、エキスパート並列化のワークフローは、ゲート ルーティング、入力エンコード、全対全スケジューリング、エキスパート計算、全対全結合、出力デコードの操作を順番に実行することです。
一般的に、GEMM の入力サイズは、コンピューティング デバイスを完全に活用するのに十分な大きさである必要があります。したがって、入力エンコーディングは、同じエキスパートの入力トークンを連続メモリ空間に集約するために使用されます。これは、ゲート ルーティングの「トークン - エキスパート マッピング」によって決定されます。その後、All-to-All スケジューリングの役割は、入力トークンを各デバイス上の対応するエキスパートに配布することです。その後、専門家による位置特定計算が行われます。計算が完了すると、All-to-All 結合によって要約され、出力がデコードされ、ゲーティング インデックスに従って元のデータのレイアウトが復元されます。
さらに、一部の研究者は、大規模分散環境における MoE モデルのスケーラビリティと効率を向上させるために、エキスパート並列処理と他の既存の並列戦略 (テンソル、パイプライン、シーケンス並列化など) との相乗効果を調査しています。
図 8 に、(b) データ + エキスパート + テンソル並列化、(c) データ + エキスパート + パイプライン並列化、(d) エキスパート + テンソル並列化など、いくつかのハイブリッド並列化の例を示します。
分散並列化戦略の選択は、コンピューティング効率、通信負荷、メモリ使用量の間に複雑な相互作用があり、また、さまざまなハードウェア構成によっても影響を受けることを認識する必要があります。したがって、実際のアプリケーションに戦略を展開する場合は、慎重にトレードオフを行い、特定のシナリオに合わせて調整を行う必要があります。
その後、チームは、MoE モデル開発が直面するシステム設計の課題と、これらの問題を解決するための研究結果を、コンピューティング、通信、ストレージの 3 つの主要なセクションで紹介しました。詳細については、元の論文を参照してください。表 4 に、オープンソース MoE フレームワークの概要を示します。
ミキシングエキスパート向けアプリ
현재 Transformer가 장악하고 있는 LLM(대형 언어 모델) 분야에서 혼합 전문가(MoE) 패러다임은 훈련 및 추론 단계에 과도한 계산 요구 사항을 도입하지 않고도 모델 성능을 크게 향상시킬 수 있다는 점에서 매우 매력적입니다. 이러한 유형의 기술은 다양한 다운스트림 작업에서 LLM의 성능을 크게 향상할 수 있으며 심지어 인간 수준을 능가하는 일부 AI 애플리케이션을 만들 수도 있습니다.
매우 강력한 GPT-4가 2,200억 개의 매개변수를 가진 8명의 전문가로 구성되고, 다양한 데이터 세트와 작업에 대해 훈련을 받고, 16회 반복 추론 프로세스를 사용하는 일종의 MoE 아키텍처를 채택할 수도 있다는 소문이 있습니다. 이 소문에 대한 자세한 내용은 이 사이트의 보고서 "궁극의 "공개": GPT-4 모델 아키텍처, 훈련 비용 및 데이터 세트 정보가 공개되었습니다"를 참조하세요.
따라서 MoE가 자연어 처리, 컴퓨터 비전, 추천 시스템 및 다중 모드 애플리케이션 분야에서 꽃을 피우는 것은 놀라운 일이 아닙니다.
이러한 응용 프로그램에서는 고정된 컴퓨팅 비용 하에서 모델의 성능을 향상시키기 위해 모델의 매개변수 수를 크게 늘리거나 효율적인 다중 작업 학습을 달성하기 위해 게이팅 메커니즘을 통해 동적 전문가 선택을 구현하기 위해 조건부 계산을 사용해야 합니다. .
팀은 또한 이러한 다양한 분야의 대표적인 MoE 애플리케이션을 소개하여 독자가 특정 작업에 MoE를 사용하는 방법을 이해하는 데 도움을 줄 수 있습니다. 자세한 내용은 원본 논문을 참조하세요.
도전과 기회
강력한 하이브리드 전문가, 비용 절감, 성능 향상. 전망은 좋지만 여전히 과제는 남아있습니다.
이 섹션에서 팀은 MoE와 관련된 주요 과제를 정리하고 중요한 결과를 얻을 것으로 예상되는 향후 연구 방향을 지적합니다. 이러한 과제와 연구 방향은 아래에 간략하게 나열되어 있으며, 자세한 내용은 원문을 참조하시기 바랍니다.
훈련 안정성 및 로드 밸런싱
확장성 및 통신 오버헤드
전문화 및 협업
희박한 활성화 및 계산 효율성
일반화 및 견고성
해석성과 투명성
최적의 전문가 아키텍처
기존 프레임워크와의 통합
추가 자료: MoE 관련 보고서
기본:
Frontier:
1인 저자 논문, Google은 백만 명의 전문가 Mixture를 제안했습니다. , 조밀한 피드포워드, 희소 MoE
오픈 소스 대형 모델 왕좌가 다시 손을 바꿨습니다. 1320억 개의 매개변수 DBRX가 온라인에 있습니다. , 기본 및 미세 조정 모델 모두 사용 가능
CVPR 2024 | MoE를 기반으로 하는 일반 이미지 융합 모델로, 여러 작업을 완료하기 위해 2.8% 매개변수를 추가합니다.
Apple 대형 모델 MM1이 시장에 출시되었습니다: 300억 개의 매개변수, 다중 모드, MoE 건축, 작가의 절반 이상이 중국인
8x7B MoE는 Flash Attention 2와 결합되어 10줄 미만의 코드에서 빠른 추론을 달성합니다.
MoE 교육 효율성 및 성능 병목 현상을 해소하고 Huawei Pangu 희소 대형 모델 새로운 아키텍처 LocMoE 출시
Mistral 오픈 소스 8X22B 대형 모델, OpenAI 업데이트 GPT-4 Turbo 비전, 그들은 모두 Google을 괴롭히고 있습니다
Tsinghua University, SmartMoE 출시: 고성능 MoE 희소 대형 모델 분산 훈련의 원클릭 구현
以上がアルゴリズム、システム、アプリケーション、3つの観点からハイブリッド専門家(MoE)を包括的に理解するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。