ホームページ テクノロジー周辺機器 AI MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

Jan 23, 2024 pm 06:00 PM
データ モデル

State Space Model (SSM) は大きな注目を集めているテクノロジーであり、Transformer の代替として考えられています。 Transformer と比較して、SSM は長いコンテキスト タスクを処理するときに線形時間推論を実現でき、並列トレーニングと優れたパフォーマンスを備えています。特に、選択的 SSM とハードウェアを意識した設計に基づく Mamba は、優れたパフォーマンスを示しており、アテンションベースの Transformer アーキテクチャの強力な代替手段の 1 つとなっています。

最近、研究者は、SSM と Mamba を他の方法と組み合わせて、より強力なアーキテクチャを作成することも検討しています。たとえば、Machine Heart はかつて「Mamba は Transformer の代わりに使用できますが、組み合わせて使用​​することもできます」と報告しました。

最近、ポーランドの研究チームは、SSM をハイブリッド エキスパート システム (MoE/専門家の混合) と組み合わせると、SSM の大規模な拡張が期待できることを発見しました。 MoE は、Transformer を拡張するために一般的に使用されるテクノロジです。たとえば、最近の Mixtral モデルではこのテクノロジが使用されています。Heart of the Machine の記事 を参照してください。

このポーランドの研究チームによる研​​究結果は、Mamba とハイブリッド エキスパート レイヤーを組み合わせたモデルである MoE-Mamba です。

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

文書アドレス: https://arxiv.org/pdf/2401.04081.pdf

MoE -Mamba は SSM と MoE の効率を同時に向上させることができます。またチームは、専門家の数が異なる場合でも MoE-Mamba が予測どおりに動作することも発見しました。

チームは実験的なデモンストレーションを実施し、その結果、Mamba と比較して、MoE-Mamba は同じパフォーマンス要件でも必要なトレーニング ステップが 2.2 分の 1 であり、新しい方法が同等であることが示されました。 Transformer および Transformer-MoE に比べて優れた利点があります。これらの予備的な結果は、有望な研究の方向性も示しています。SSM は数百億のパラメータに拡張可能である可能性があります。

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

#関連研究

##状態空間モデル

State Space Model (SSM) は、シーケンス モデリングに使用されるアーキテクチャの一種です。これらのモデルのアイデアはサイバネティクスの分野に由来しており、RNN と CNN の組み合わせとして見ることができます。これらにはかなりの利点がありますが、言語モデリング タスクの主要なアーキテクチャになることを妨げるいくつかの問題もあります。しかし、最近の研究の進歩により、ディープ SSM は計算効率と強力なパフォーマンスを維持しながら、数十億のパラメータに拡張できるようになりました。

Mamba

Mamba は SSM に基づいて構築されたモデルであり、線形時間推論速度を達成できます (コンテキストのため)また、ハードウェアを意識した設計により効率的なトレーニング プロセスも実現します。 Mamba は、ループの逐次性の影響を軽減する作業効率の高い並列スキャン アプローチを使用し、融合 GPU 操作により拡張状態を実装する必要がなくなります。バックプロパゲーションに必要な中間状態は保存されませんが、バックワード パス中に再計算されるため、メモリ要件が軽減されます。 Mamba のアテンション メカニズムに対する利点は、計算の複雑さが軽減されるだけでなく、メモリ使用量がコンテキストの長さに依存しないため、推論段階で特に重要です。

Mamba は、シーケンス モデルの効率と有効性の間の基本的なトレードオフを解決します。これにより、状態圧縮の重要性が強調されます。効率的なモデルには小さな状態が必要であり、効果的なモデルにはコンテキストの重要な情報がすべて含まれた状態が必要です。時間的不変性と入力不変性を必要とする他の SSM とは異なり、Mamba では、シーケンス次元に沿って情報がどのように伝播されるかを制御する選択メカニズムが導入されています。この設計の選択は、選択的複製や誘導などのファーストクラスの合成タスクの直感的な理解に触発されており、モデルが無関係な情報をフィルターで除外しながら重要な情報を識別して保持できるようになります。

研究によると、Mamba にはより長いコンテキスト (最大 100 万のトークン) を効率的に利用する能力があり、コンテキストの長さが増加するにつれて、トレーニング前の混乱も改善されます。 Mamba モデルは、Mamba ブロックを積み重ねて構成されており、NLP、ゲノミクス、オーディオなどのさまざまな分野で非常に優れた成果を上げています。そのパフォーマンスは、既存の Transformer モデルに匹敵し、それを超えています。したがって、Mamba は一般的なシーケンス モデリング バックボーン モデルの有力な候補モデルとなっています。詳しくは、「5 倍のスループット、パフォーマンスが Transformer を完全に取り囲む: 新アーキテクチャ Mamba が AI の輪を爆発させる##」を参照してください。 #》。

ハイブリッド エキスパート

混合エキスパート (MoE) テクノロジは、モデルのパラメーターの数を大幅に増やすことができます。同時に、モデルの推論とトレーニングに必要な FLOP には影響しません。 MoE は 1991 年に Jacobs らによって初めて提案され、2017 年に Shazeer らによって NLP タスクに使用され始めました。

MoE には利点があります。アクティベーションが非常にまばらであり、処理される各トークンについて、モデルのパラメーターのごく一部のみが使用されます。 Transformer の前方層は、その計算要件により、いくつかの MoE 技術の標準ターゲットとなっています。

研究コミュニティは、MoE の中核問題、つまりルーティング プロセスとも呼ばれる、専門家にトークンを割り当てるプロセスを解決するためのさまざまな方法を提案してきました。現在、Token Choice と Expert Choice の 2 つの基本的なルーティング アルゴリズムがあります。前者は各トークンを特定の数 (K) のエキスパートにルーティングするものであり、後者は各トークンを固定数のエキスパートにルーティングするものです。

Fedus らは、2022 年の論文「スイッチ トランスフォーマー: シンプルで効率的なスパース性を備えた兆パラメータ モデルへの拡張」でスイッチを提案しました。これは、各トークンがルーティングされることを組み合わせたトークン選択アーキテクチャです。 1 人の専門家 (K=1) に報告し、彼らはこの方法を使用して、Transformer パラメータのサイズを 1.6 兆まで拡張することに成功しました。ポーランドのこのチームも、実験でこの MoE 設計を使用しました。

最近、MoE は OpenMoE などのオープンソース コミュニティにも参入し始めています。

プロジェクトアドレス: https://github.com/XueFuzhao/OpenMoE

特に言及する価値があるのは、Mistral のオープンソース Mixtral 8× 7B です。そのパフォーマンスは LLaMa 2 70B に匹敵しますが、必要な推論コンピューティングの予算は LLaMa 2 70B の約 6 分の 1 にすぎません。

モデル アーキテクチャ

Mamba の主な基礎となるメカニズムは、Transformer で使用されるアテンション メカニズムとはまったく異なりますが、Mamba は Transformer モデルを高度に維持しています。 -レベル、モジュールベースの構造。このパラダイムを使用すると、同一モジュールの 1 つ以上の層が互いに積み重ねられ、各層の出力が残差ストリームに追加されます (図 2 を参照)。この残差ストリームの最終値は、言語モデリング タスクの次のトークンを予測するために使用されます。

MoE-Mamba は、両方のアーキテクチャの互換性を利用します。図 2 に示すように、MoE-Mamba では、すべての間隔の Mamba 層がスイッチベースの MoE フィードフォワード層に置き換えられます。

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

ただし、チームは、この設計が「Mamba: 選択的状態空間を使用した線形時間シーケンス モデリング」の設計にやや似ていることにも気づきました。 ; 後 このモデルは Mamba 層とフィードフォワード層を交互に積み重ねますが、結果として得られるモデルは純粋な Mamba よりもわずかに劣ります。この設計は、図 1 では Mamba-MLP として示されています。

MoE-Mamba は、Mamba 層によって実行される各トークンの無条件処理と MoE 層によって実行される条件付き処理を分離します。無条件処理は、シーケンスのコンテキスト全体を効率的に統合できます。内部表現では、条件付き処理では各トークンに最も関連性の高い専門家を使用できます。条件付き処理と無条件処理を交互に行うというこのアイデアは、一部の MoE ベースのモデルに適用されていますが、通常は基本層と MoE フィードフォワード層を交互に使用します。

主な結果

トレーニング設定

チームは 5 つを比較しましたさまざまな設定: Basic Transformer、Mamba、Mamba-MLP、MoE、MoE-Mamba。

ほとんどの Transformers では、フィードフォワード レイヤーには 8dm² のパラメーターが含まれていますが、Mamba ペーパーでは Mamba が小さく (約 6dm²) されるため、2 つの Mamba レイヤーのパラメーターの数は 1 つのフィードフォワード レイヤーと 1 つのフィードフォワード レイヤーのパラメーターの数と同じになります。注目層の合計はほぼ同じになります。 Mamba と新しいモデルでトークンあたりのアクティブなパラメーターの数をほぼ同じにするために、チームは各エキスパート フォワード レイヤーのサイズを 6dm² に縮小しました。埋め込み層と非埋め込み層を除いて、すべてのモデルはトークンごとに約 2,600 万のパラメーターを使用します。トレーニング プロセスでは 65 億トークンが使用され、トレーニング ステップ数は 100k です。

トレーニングに使用されるデータ セットは英語の C4 データ セットで、タスクは次のトークンを予測することです。テキストは GPT2 トークナイザーを使用してトークン化されます。表 3 に、ハイパーパラメータの完全なリストを示します。

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

#結果

表 1 にトレーニング結果を示します。 MoE-Mamba は、通常の Mamba モデルよりも大幅にパフォーマンスが向上します。

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

注目すべきことに、MoE-Mamba はトレーニング ステップのわずか 46% で通常の Mamba と同じレベルの結果を達成しました。通常の Mamba では学習率が調整されているため、学習プロセスが MoE-Mamba に最適化されれば、MoE-Mamba のパフォーマンスが向上することが期待できます。

アブレーション研究

#Mamba が専門家の数の増加に応じて適切に拡張できるかどうかを評価するために、研究者はさまざまな数の専門家モデルを使用して比較しました。

図 3 は、さまざまな数のエキスパートを使用した場合のトレーニングの実行手順を示しています。

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

#表 2 は、100k ステップ後の結果を示しています。

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

#これらの結果は、新しく提案された方法が専門家の数に応じてうまく拡張できることを示しています。エキスパートの数が 8 名以上の場合、新モデルの最終的なパフォーマンスは通常の Mamba よりも優れています。 Mamba-MLP は通常の Mamba よりも悪いため、少数の専門家を使用する MoE-Mamba のパフォーマンスは Mamba よりも悪くなることが予想されます。新しい方法では、専門家の数が 32 人の場合に最良の結果が得られました。

以上がMoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

オープンソース!ゾーイデプスを超えて! DepthFM: 高速かつ正確な単眼深度推定! オープンソース!ゾーイデプスを超えて! DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

超知性の生命力が覚醒する!しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 超知性の生命力が覚醒する!しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

iPhoneのセルラーデータインターネット速度が遅い:修正 iPhoneのセルラーデータインターネット速度が遅い:修正 May 03, 2024 pm 09:01 PM

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

アメリカ空軍が初のAI戦闘機を公開し注目を集める!大臣はプロセス全体を通じて干渉することなく個人的にテストを実施し、10万行のコードが21回にわたってテストされました。 アメリカ空軍が初のAI戦闘機を公開し注目を集める!大臣はプロセス全体を通じて干渉することなく個人的にテストを実施し、10万行のコードが21回にわたってテストされました。 May 07, 2024 pm 05:00 PM

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機(VISTA)で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランク ケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、

See all articles