大規模モデルの波の中で、最先端の高密度セット LLM のトレーニングとデプロイは、特に数百億または数千億のパラメーターの規模で、計算要件と関連コストの点で大きな課題を引き起こします。これらの課題に対処するために、専門家混合 (MoE) モデルなどのスパース モデルの重要性がますます高まっています。 これらのモデルは、さまざまな特殊なサブモデル、つまり「エキスパート」に計算を分散することで経済的に実行可能な代替手段を提供し、リソース要件が非常に低い高密度セット モデルのパフォーマンスに匹敵する、またはそれを超える可能性があります。
6 月 3 日、オープンソースの大規模モデルの分野から別の重要なニュースが届きました。Kunlun Wanwei は、強力なパフォーマンスを維持しながら推論のコストを大幅に削減する、2,000 億のスパース大規模モデル Skywork-MoE のオープンソースを発表しました。
Kunlun Wanwei の以前のオープンソース Skywork-13B モデル中間チェックポイントに基づいて拡張された、MoE Upcycling テクノロジーを完全に適用および実装した最初のオープンソースの 1,000 億 MoE 大型モデルでもあります。単一の 4090 サーバーで数千億の MoE の大規模モデル。
大規模なモデル コミュニティにとってさらに注目を集めているのは、Skywork-MoE のモデルの重みと技術レポートが完全にオープンソースであり、商用利用が無料で、申請も必要ないことです。
モデルウェイトのダウンロードアドレス:
○ https://huggingface.co/Skywork/Skywork-MoE-base
○ https://huggingface.co/Skywork/Skywork-MoE-Base-FP8
モデルオープンソースウェアハウス: https://github.com/SkyworkAI/Skywork-MoE
モデル技術レポート: https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe - tech-report.pdf
モデル推論コード: (8x4090 サーバーで 8 ビット量子化負荷推論をサポート) https://github.com/SkyworkAI/vllm
Skywork-MoE は現在、以下を推論できます。 8x4090 サーバー 最大のオープンソース MoE モデル。 8x4090 サーバーには合計 192GB の GPU メモリが搭載されており、FP8 量子化 (重みは 146GB を占有) では、Kunlun Wanwei チームが開発した不均一 Tensor Parallel 並列推論手法を使用して、Skywork-MoE は適切な範囲内で 2200 トークン/秒に達します。バッチサイズ。
関連する完全な推論フレームワーク コードとインストール環境については、https://github.com/SkyworkAI/Skywork-MoE を参照してください。 Tiangong 3.0 R&D モデル シリーズはミッドレンジ モデル (Skywork-MoE-Medium) で、モデルの総パラメータ量は 146B、起動パラメータ量は 22B、各エキスパートのサイズは合計 13B です。 、毎回そのうちの2つがアクティブになります。
Tiangong 3.0 は、このオープンソースには含まれていない 2 つの MoE モデル、75B (Skywork-MoE-Small) と 400B (Skywork-MoE-Large) もトレーニングしていることがわかります。 Kunlun Wanwei は、現在の主要モデルの評価リストに基づいて Skywork-MoE を評価しました。同じ 20B の起動パラメータ量 (推論計算量) の下で、Skywork-MoE の機能は 70B Dense モデルに近い業界の最前線にあります。これにより、モデルの推論コストが 3 倍近く削減されます。
Skywork-MoE の合計パラメーター サイズは DeepSeekV2 の合計パラメーター サイズより 1/3 小さく、より小さいパラメーター サイズで同様の機能を実現していることは注目に値します。技術革新
困難な MoE モデルのトレーニングと貧弱な汎化パフォーマンスの問題を解決するために、Skywork-MoE は 2 つのトレーニング最適化アルゴリズムを設計しました:
ゲーティング ロジット正規化操作Skywork-MoE のゲーティング正規化操作が層のトークン配布ロジックに追加されました。これにより、ゲート層のパラメータ学習が選択された上位 2 つの専門家により偏り、上位 2 の MoE モデルの信頼性が高まります:
適応型 Aux 損失
は、固定係数 (固定ハイパーパラメータ) を使用した従来の Aux 損失とは異なり、モデルが MoE トレーニングのさまざまな段階で適切な Aux 損失ハイパーパラメータ係数を適応的に選択できるため、ドロップ トークン レートを範囲内に維持できます。適切な間隔を設定すると、エキスパートの分散のバランスが取れ、エキスパートの学習を差別化できるため、モデルの全体的なパフォーマンスと汎化レベルが向上します。 MoE トレーニングの初期段階では、パラメーターの学習が不十分なため、ドロップ トークン レートが高すぎます (トークンの分布が異なりすぎます)。このとき、後の段階でトークンの負荷分散を支援するために、より大きな AUX 損失が必要になります。 Skywork-MoE チームは、ゲーティングがトークンをランダムに配布する傾向を回避するために、エキスパート間である程度の差別化が依然として確保されていることを期待しているため、修正を減らすには補助損失を低くする必要があります。トレーニングインフラ
MoEモデルの大規模分散トレーニングを効率的に実施する方法は難しい課題です。 Skywork-MoE は、キロカロリー クラスターで MFU の 38% のトレーニング スループットを達成するための 2 つの重要な並列最適化設計を提案しています。MFU は、22B の活性化パラメーターで理論上の計算負荷を計算します。 専門家データの並列Megatron-LM コミュニティの既存の EP (Expert Parallel) および ETP (Expert Tensor Parallel) 設計とは異なり、Skywork-MoE チームは Expert Data Parallel と呼ばれる並列設計ソリューションを提案しました。この並列ソリューションは Expert When the数が少ない場合でも、モデルを効率的にセグメント化することができ、Expert によって導入された all2all 通信も最適化して最大限にマスクすることができます。 EP の GPU 数の制限やキロカード クラスタでの ETP の非効率と比較して、EDP は大規模な分散トレーニング MoE の並行する問題点をより適切に解決できます。同時に、EDP の設計はシンプルで堅牢で、拡張が容易です。迅速な実装と検証が可能です。 E 最も単純な EDP の例の 1 つ、2 枚のカードの場合、TP = 2、EP = 2、アテンション部分は Tensor Parallel を使用し、Expert 部分は Expert Parallel を使用します
不均一切削水平行水平行水 最初のステージの埋め込み計算と最後のステージの損失計算、およびパイプライン バッファーの存在により、各ステージの計算負荷とビデオ メモリ負荷に明らかな不均衡が生じます。レイヤーはパイプライン並列処理の下で均等に分割されます。 Skywork-MoE チームは、全体的なコンピューティング/グラフィックス メモリ負荷のバランスをより良くし、エンドツーエンドのトレーニング スループットを約 10% 向上させるために、不均一なパイプライン並列セグメンテーションと再計算レイヤ割り当て方法を提案しました。 均一セグメンテーションと不均一セグメンテーションの下でパイプラインの並列バブルを比較します: 24 層 LLM の場合、(a) は 4 つのステージに均等に分割され、各ステージの層の数は次のとおりです: [ 6 , 6, 6, 6] は最適化された不均一分割方法であり、各ステージのレイヤー数は [5, 5, 5, 5, 4] です。中段は流水で満たされており、不均一に分割された泡はさらに低くなります。
さらに、Skywork-MoE は、どの制約がアップサイクルおよびフロムスクラッチトレーニング MoE モデルのパフォーマンスに影響を与えるかを調査するために、スケーリング則に基づいた一連の実験も実施しました。 従うことができる経験則は次のとおりです: MoE モデルのトレーニングの FLOP が Dense モデルのトレーニングの FLOP の 2 倍を超える場合は、Scratch から MoE をトレーニングすることを選択する方が良いでしょう。 MoE のトレーニングにアップサイクルを選択すると、トレーニング コストを大幅に削減できます。
以上が単一の 4090 推論可能、2000 億のスパース大規模モデル「Tiangong MoE」がオープンソースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。