ホームページ テクノロジー周辺機器 AI ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

Jan 22, 2024 pm 03:21 PM
データ モデル

大型モデルの分野におけるトランスフォーマーの地位は揺るぎません。ただし、モデルの規模が拡大し、シーケンスの長さが増加するにつれて、従来の Transformer アーキテクチャの限界が明らかになり始めます。幸いなことに、Mamba の出現により、この状況は急速に変わりつつあります。その卓越したパフォーマンスはすぐに AI コミュニティにセンセーションを巻き起こしました。 Mamba の出現は、大規模なモデルのトレーニングとシーケンス処理に大きな進歩をもたらしました。その利点は AI コミュニティに急速に広がり、将来の研究と応用に大きな期待をもたらしています。

先週の木曜日、Vision Mamba (Vim) の導入により、ビジュアル ベーシック モデルの次世代のバックボーンとなる大きな可能性が実証されました。わずか 1 日後、中国科学院、ファーウェイ、彭城研究所の研究者は、VMamba:グローバルな受容野と線形複雑性を備えた視覚的な Mamba モデルを提案しました。 この作品は、視覚的なマンバ モデル Swin の瞬間の到来を示します。

ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ


  • 論文のタイトル: VMamba: ビジュアル状態空間モデル
  • #ペーパーアドレス: https://arxiv.org/abs/2401.10166
  • コードアドレス: https://github.com/MzeroMiko/VMamba
  • #CNN と Visual Transformer (ViT) は、現在最も主流の 2 つの基本的なビジュアル モデルです。 CNN は線形の複雑さを持っていますが、ViT はより強力なデータ フィッティング機能を備えていますが、その代わりに計算の複雑さが高くなります。
研究者らは、ViT にはグローバルな受容野と動的重みがあるため、強力なフィッティング能力があると考えています。 Mamba モデルに触発されて、研究者たちは、線形複雑さの下で両方の優れた特性を備えたモデル、つまり Visual State Space Model (VMamba) を設計しました。

大規模な実験により、VMamba がさまざまな視覚的なタスクで適切にパフォーマンスを発揮することが証明されました。 下の図に示すように、VMamba-S は ImageNet-1K 上で 83.5% の精度を達成します。これは Vim-S より 3.2%、Swin-S より 0.5% 高くなります。

#メソッドの紹介ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

成功VMamba 鍵となるのは、もともと自然言語処理 (NLP) タスクを解決するために設計された S6 モデルの使用です。 ViT のアテンション メカニズムとは異なり、S6 モデルは、1D ベクトルの各要素を以前のスキャン情報と相互作用させることにより、二次複雑性を線形性に効果的に軽減します。この対話により、大規模なデータを処理する際の VMamba の効率が向上します。したがって、S6 モデルの導入は、VMamba の成功の強固な基盤を築きました。 ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

ただし、視覚信号 (画像など) にはテキストシーケンスのような自然な秩序性がないため、S6 のデータ スキャン方法を単純に視覚信号に対して直接実行することはできません。この目的のために、研究者はクロススキャン スキャン機構を設計しました。 クロススキャン モジュール (CSM) は、4 方向のスキャン戦略、つまり、特徴マップの 4 つの隅から同時にスキャンする戦略を採用しています (上の図を参照)。

この戦略により、フィーチャ内の各要素が他のすべての場所からの情報をさまざまな方向に統合し、線形の計算の複雑さを増加させることなくグローバルな受容野を形成することが保証されます。

CSM に基づいて、著者は 2D 選択的スキャン (SS2D) モジュールを設計しました。上の図に示すように、SS2D は 3 つのステップで構成されます。 ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

#scan Expand 2D フィーチャを 4 つの異なる方向 (左上、右下、左下、上) にフラット化する右) は 1D ベクトルです。

  • S6 ブロックは、前のステップで取得した 4 つの 1D ベクトルを独立して S6 オペレーションに送信します。
  • スキャン マージは、取得された 4 つの 1D ベクトルを 2D 特徴出力に融合します。
#上の図は、この記事で提案する VMamba の構造図です。 VMamba の全体的なフレームワークは主流のビジュアル モデルに似ていますが、主な違いは基本モジュール (VSS ブロック) で使用される演算子にあります。 VSS ブロックは、上で紹介した 2D 選択的スキャン操作、つまり SS2D を使用します。 SS2D は、VMamba が

線形複雑さ ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ のコストで

グローバル受容野を達成することを保証します。

#実験結果

ImageNet 分類

ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

#合格 比較実験結果を見ると、同様のパラメータ量と FLOP の下で、

    VMamba-T は
  • 82.2% のパフォーマンスを達成し、次のことを確認するのは難しくありません。 RegNetY-4G は 2.2%、DeiT-S は 2.4%、Swin-T は 0.9% に達しました。
  • VMamba-S は
  • 83.5% のパフォーマンスを達成し、RegNetY-8G を 1.8%、Swin-S を 0.5% 上回りました。
  • VMamba-B は
  • 83.2% のパフォーマンスを達成しました (バグがあります。正しい結果はできるだけ早く Github ページで更新されます)。 RegNetYより0.3%高いです。
これらの結果は、Vision Mamba (Vim) モデルよりもはるかに優れており、VMamba の可能性を完全に検証しています。

COCO ターゲットの検出

ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

COOCO データ セットでは、VMamba も優れたパフォーマンスの維持: 12 エポックの微調整の場合、VMamba-T/S/B はそれぞれ 46.5%/48.2%/48.5% mAP に達し、Swin-T/S/B を 3.8%/3.6%/1.6% 上回りました。 mAP、ConvNeXt-T/S/B を 2.3%/2.8%/1.5% mAP 上回ります。これらの結果は、VMamba が下流のビジュアル実験で完全に機能することを検証し、主流の基本的なビジュアル モデルを置き換える可能性を示しています。

ADE20K セマンティック セグメンテーション

ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

ADE20K では、VMamba も優れたパフォーマンスを示します。 VMamba-T モデルは、512 × 512 の解像度で 47.3% の mIoU を達成し、これは ResNet、DeiT、Swin、ConvNeXt を含むすべての競合他社を上回るスコアです。この利点は、VMamba-S/B モデルでも引き続き維持できます。

分析実験

有効受容野

ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

VMamba はグローバルな有効受容野を備えており、この機能を備えているのは他のモデルの中で DeiT だけです。ただし、DeiT のコストは二次計算量であるのに対し、VMamaba は線形計算量であることに注意してください。

#入力スケール スケーリング

ビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げ

上の図 (a) VMamba は、さまざまな入力画像サイズの下で (微調整なしで) 最も安定したパフォーマンスを示すことが示されています。興味深いことに、入力サイズが 224 × 224 から 384 × 384 に増加するにつれて、VMamba のみがパフォーマンスの大幅な向上を示し (VMamba-S は 83.5% から 84.0% に)、入力画像サイズの性別の変化に対する堅牢性が強調されています。
  • 上の図 (b) は、入力が大きくなるにつれて VMamba シリーズ モデルの複雑さが直線的に増加することを示しており、これは CNN モデルと一致しています。
  • 最後に、基本的なビジョン モデルの 3 番目のオプションとして、CNN や ViT と並んで、より多くの Mamba ベースのビジョン モデルが提案されることに期待しましょう。

以上がビジュアル Mamba モデルの Swin の瞬間、中国科学院、ファーウェイなどが VMamba を立ち上げの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

オープンソース!ゾーイデプスを超えて! DepthFM: 高速かつ正確な単眼深度推定! オープンソース!ゾーイデプスを超えて! DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

iPhoneのセルラーデータインターネット速度が遅い:修正 iPhoneのセルラーデータインターネット速度が遅い:修正 May 03, 2024 pm 09:01 PM

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

超知性の生命力が覚醒する!しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 超知性の生命力が覚醒する!しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行​​い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

See all articles