GPT-4 の出現以来、人々は、優れた言語理解能力、生成能力、論理的推論能力などを含む、その強力な創発能力に驚かされてきました。これらの機能により、GPT-4 は機械学習における最も最先端のモデルの 1 つとなります。ただし、OpenAIはこれまでのところGPT-4の技術的な詳細を明らかにしていない。
先月、George Hotz は、Latent Space と呼ばれる AI テクノロジー ポッドキャストのインタビューで GPT-4 について言及し、GPT-4 は実際にはハイブリッド モデルであると述べました。具体的には、George Hotez 氏は、GPT-4 は 8 つのエキスパート モデルで構成される統合システムを使用しており、各モデルには 2,200 億のパラメーター (GPT-3 の 1,750 億のパラメーターよりわずかに多い) があり、これらのモデルは異なるデータとタスクでトレーニングされると述べました。配布物。
#Latent Space からのインタビュー。
これは George Hotez による単なる推測かもしれませんが、このモデルにはある程度の正当性があります。最近、Google、カリフォルニア大学バークレー校、MIT、その他の機関の研究者が共同で発表した論文では、ハイブリッド エキスパート モデル (MoE) と命令チューニングの組み合わせにより大規模言語モデル (LLM) のパフォーマンスを大幅に向上できることが確認されました。
写真
論文アドレス: https://arxiv.org/pdf/2305.14705.pdf
スパース混合エキスパート モデルは、推論のコストを増加させることなく、学習可能なパラメーターを大規模言語モデル (LLM) に追加できる特別なニューラル ネットワーク アーキテクチャです。命令チューニングは、LLM が命令に従うようにトレーニングするための手法です。この研究では、MoE モデルは高密度モデルよりも命令チューニングの恩恵を受けることが判明したため、MoE と命令チューニングを組み合わせることが提案されました。
この研究は、命令調整を行わない場合の
最初のケースでは、MoE モデルは一般に、同じ計算能力を持つ高密度モデルよりも劣ります。しかし、命令チューニングの導入(2番目と3番目のケース)により、FLAN-MoE_32B(Fine-tuned LAnguage Net、略称Flanは命令チューニングモデル、Flan-MoEは命令チューニング)の優れたMoE)がFLANを上回りました。 -PALM_62B は 4 つのベンチマーク タスクで発生しましたが、FLOP の 3 分の 1 しか使用していません。
次の図に示すように、命令チューニングを使用する前は、MoE→FT は T5→FT ほど良好ではありません。命令チューニング後、Flan-MoE→FT は Flan-T5→FT よりも優れています。 MoE は、高密度モデル (10.2) よりも命令チューニング (15.6) からより多くの利益を得ています:
写真
GPT -4 のようですハイブリッド モデルを採用するにはいくつかの根拠があり、教育省は実際に命令チューニングから大きなメリットを得ることができます:
写真
研究者らは、FLAN-MOE (指示によって微調整された疎混合エキスパート モデルのセット) モデルで疎活性化 MoE (混合エキスパート) を使用しました。さらに、他の Transformer レイヤーのフィードフォワード コンポーネントを MoE レイヤーに置き換えました。
各 MoE レイヤーは「エキスパート」として理解でき、ソフトマックス アクティベーション関数を使用してこれらのエキスパートをモデル化し、確率分布を取得します。
各 MoE レイヤーには多くのパラメータがありますが、エキスパートはまばらにアクティブになります。これは、特定の入力トークンに対して、限られた専門家のサブセットのみがタスクを完了できることを意味し、モデルの処理能力が向上します。
E 人の専門家がいる MoE 層の場合、これにより O (E^2) 個の異なるフィードフォワード ネットワークの組み合わせが効果的に提供され、計算の柔軟性が向上します。
FLAN-MoE は命令チューニング モデルであるため、命令チューニングは非常に重要です。この研究では、FLAN 集合データ セットに基づいて FLAN-MOE を微調整しました。さらに、この研究では、各 FLAN-MOE の入力シーケンス長を 2048 に、出力シーケンス長を 512 に調整しました。
平均すると、Flan-MoE は追加の計算を追加することなく、すべてのモデル スケールで優れたパフォーマンスを発揮します。 (フラン-T5)。
写真
専門家の数。図 4 は、専門家の数が増加するにつれて、モデルは最初は、問題空間内の異なるタスクや側面を処理できる、より豊富な特殊なサブネットワークのセットの恩恵を受けることを示しています。このアプローチにより、MoE は適応性が高く、複雑なタスクを効率的に処理できるようになり、全体的なパフォーマンスが向上します。ただし、専門家の数が増加し続けるにつれて、モデルのパフォーマンスの向上は減少し始め、最終的には飽和点に達します。
図
図 3 と表 1 は、さまざまなルーティングの決定が命令チューニングのパフォーマンスにどのような影響を与えるかを詳しく示しています。FLAN 経由スイッチ戦略と FLAN-GS 戦略を比較すると、より多くのエキスパートをアクティブにすると、4 つのベンチマーク全体でパフォーマンスが向上することがわかります。これらのベンチマークの中で、MMLU-Direct モデルが最も大幅な改善を示し、BASE/LARGE サイズのモデルで 38.0% から 39.9% に増加しました。
注目すべきことに、同等の容量の高密度モデルと比較して、命令チューニングにより、MMLU、BBH、内部 QA および推論ベンチマークの維持における MoE モデルのパフォーマンスが大幅に増幅されました。これらの利点は、大規模な MoE モデルではさらに増幅されます。たとえば、命令チューニングにより ST_32B ではパフォーマンスが 45.2% 向上しますが、FLAN-PALM_62B ではこの向上は約 6.6% と比較的小さいです。
モデル拡張を行う場合、Flan-MoE (Flan-ST-32B) は Flan-PaLM-62B よりも優れたパフォーマンスを発揮します。
写真
#さらに、この調査では、指定されたモデルのゲート機能、エキスパート モジュール、および MoE がフリーズされます。パラメータに関して実験が行われました。以下の表 2 に示すように、実験結果は、エキスパート モジュールまたは MoE コンポーネントのフリーズがモデルのパフォーマンスに悪影響を与えることを示しています。
逆に、フリーズ ゲート機能を使用すると、明らかではありませんが、モデルのパフォーマンスがわずかに向上します。研究者らは、この観察は FLAN-MOE のアンダーフィッティングに関連していると推測しています。この研究では、以下の図 5 に示すアブレーション研究の微調整データ効率を調査するためにアブレーション実験も実施しました。
最後に、MoE の直接微調整と FLAN-MOE のギャップを比較するために、この研究ではシングルタスク微調整を実施しました。 MoE のシングルタスク実験は、微調整された FLAN-MoE モデルと高密度モデルで実施され、その結果が以下の図 6 に示されています。 #興味のある読者は、論文の原文を読んでさらに詳しい研究内容を学ぶことができます。
以上がGPT-4はハイブリッド大型モデルを使用していますか?研究により、MoE+ 命令チューニングにより大規模モデルのパフォーマンスが実際に向上することが証明されていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。