HuggingFace のオープンソースの大規模モデル ランキングが再び削除されました。
最前列は、数週間前のさまざまな Mixtral 8x7B 微調整バージョンを締め出し、SOLAR 10.7B 微調整バージョンによって独占的に占められています。
#大型 SOLAR モデルの起源は何ですか?
韓国企業 Upstage AI から、新しい大規模モデル拡張手法 Depth up を使用した関連論文が ArXiv にアップロードされました。 -スケーリング(DUS)。
簡単に言うと、2頭の7Bアルパカの頭と尻尾を切り落とし、1頭は最初の8層を切り落とします。 、残りの 8 つのレイヤーのみを切り取ります。
残りの 2 つの 24 レイヤーが縫い合わされます。、最初のモデルの 24 番目のレイヤーが 2 番目のモデルの 9 番目のレイヤーと接合され、最終的に次のようになります。新型48階建て10.7Bの大型モデル。
論文では、この新しい方法は MoE などの従来の拡張方法を超え、基本的な大規模モデルとまったく同じインフラストラクチャを使用できると主張しています。
ゲート ネットワークなどの追加モジュールは必要なく、トレーニング フレームワークは MoE 用に最適化されており、高速推論のために CUDA カーネルをカスタマイズする必要はなく、効率を維持しながら既存のメソッドにシームレスに統合できます。 。
チームは、7B の単一大型モデルの中で最も強力なミストラル 7B をベース素材として選択し、オリジナル バージョンと MoE バージョンを超える新しい方法を使用してそれをつなぎ合わせました。
同時に、調整された命令バージョンも、対応する MoE 命令バージョンを上回ります。
ステッチを最後まで実行する
最も単純な拡張方法から始めます。これは、32 層の基本的な大規模モデルを 2 回繰り返して 64 層にすることです。
この利点は、異質性がないことです。すべてのレイヤーは基本的な大きなモデルからのものですが、レイヤー 32 とレイヤー 33 の継ぎ目は
(レイヤー 1 と同じ)「レイヤー距離」(レイヤー距離) を大きくします。 以前の研究では、Transformer の層が異なると実行する処理が異なることが示されています。たとえば、より深い層ほど、より抽象的な概念の処理に優れています。
チームは、レイヤーの距離が長すぎると、事前トレーニングされた重みを効果的に利用するモデルの能力が妨げられる可能性があると考えています。
考えられる解決策の 1 つは、中間層を犠牲にして縫い目での段差を減らすことであり、ここで DUS 工法が誕生しました。
パフォーマンスとモデル サイズの間のトレードオフに基づいて、チームは各モデルから 8 つのレイヤーを削除することを選択し、継ぎ目は 32 レイヤーからレイヤー 1、24 レイヤーからレイヤー 9 に変更されました。
単純にスプライスされたモデルのパフォーマンスは、最初はまだ元のベース モデルよりも低いですが、事前トレーニングを続けるとすぐに回復できます。
命令の微調整フェーズでは、オープンソース データ セットの使用に加えて、数学的に強化されたデータ セットも作成され、調整フェーズでは DPO が使用されました。
最後のステップは、さまざまなデータ セットを使用してトレーニングされたモデル バージョンの平均に重みを付けることであり、これによりステッチングも完了します。
一部のネチズンはテストデータ漏洩の可能性を疑問視しました。
チームはこれも考慮し、論文の付録でデータ汚染テストの結果を具体的に報告しましたが、その結果は低いレベルでした。
最後に、SOLAR 10.7B 基本モデルと微調整モデルは両方とも、Apache 2.0 ライセンスの下でオープンソースです。
これを試したネチズンは、JSON 形式のデータからデータを抽出する際に優れたパフォーマンスを発揮すると報告しています。
論文アドレス: https://arxiv.org/abs/2312.15166以上がHuggingFace: 2 頭のアルパカを頭と尻尾を取り除いてつなぎ合わせたものの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。