AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
機械式時計を手に取ると、正面からは文字盤と針が、横からはリューズとブレスレットが見えます。時計の裏側には、複雑な歯車とムーブメントが表示されます。各視点は、操作されているオブジェクトの全体的な 3 次元ビューを理解するために組み合わされるさまざまな情報を提供します。 実生活でロボットに複雑なタスクの実行を学習させたい場合、まずロボットに、操作オブジェクトと操作オブジェクト、そしてそれに対応する 3 つのプロパティを理解させる必要があります-次元操作空間には、位置、形状、オブジェクト間のオクルージョン関係、オブジェクトと環境の間の関係などが含まれます。 次に、ロボットは自然言語の命令を理解し、長期的な計画を実行し、将来のアクションを効率的に実行する必要があります。環境認識から行動予測までの機能をロボットに装備することは困難です。
最近、
中国電信人工知能研究所(TeleAI)の李雪龍教授は、清華大学上海人工知能研究所やその他の部門と協力して、人間の「知覚・記憶・思考」の認知をシミュレートしました。このプロセスでは、多視点融合によって駆動される普遍的な身体化操作アルゴリズムが提案され、ロボットが複雑な操作を学習するための実現可能なソリューションを提供しました。この論文は、国際機械学習会議 ICML 2024 に採択され、普遍的な三次元具体化戦略を構築するための基礎。 SAM-E ビデオの紹介は次のとおりです。 近年、ビジュアルベーシックモデルの画像を理解する能力は急速に発展しています。しかし、三次元空間を理解するにはまだ多くの課題があります。大規模な視覚モデルを使用して、身体化されたエージェントが 3 次元の操作シーンを理解し、3 次元空間でさまざまな複雑な操作タスクを完了できるようにすることはできますか?この論文は、「知覚-記憶-思考-想像力」の認知プロセスに触発され、視覚セグメンテーションモデルSegment Anything (SAM)に基づいた新しい具体化された基本モデルSAM-Eを提案しています。
まず第一に、SAM-E には強力なプロンプト可能な「知覚
」機能があり、SAM の独自のセグメンテーション構造を言語命令の特定のタスクに適用し、テキスト命令を解析することでモデルがシーンに注意を払うことができるようにします。 .操作オブジェクト。
続いて、ロボットアームを理解するためにオブジェクト「記憶
」と操作「考える」を実現するために、深度特徴、画像特徴、およびコマンド特徴を融合および調整するようにマルチビューTransformerが設計されています。操作スペース。
最後に、複数のタイムステップでアクションシーケンスをモデル化し、アクション指示を「想像」し、3次元のシーン認識から具体化されたアクションまでを実現するための
新しいアクションシーケンス予測ネットワークが提案されています。出力。
- 論文名: SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation
- 論文リンク: https://sam-embodied.github.io/static/SAM-E.pdf
- プロジェクトアドレス: https://sam-embodied.github.io/
デジタル時代の波の中で、人工知能と インテリジェントテクノロジーの急速な発展に伴い、私たちは徐々に新しい時代、つまり身体化された知能の時代に入りつつあります。知的エージェントに身体を与え、現実世界と直接対話する能力を与えることが、現在の研究の重要な方向性の 1 つとなっています。 この目標を達成するには、エージェントが周囲の環境を正確に理解できるように、強力な 3 次元認識能力を備えている必要があります。 複雑な 3 次元空間に直面した場合、従来の 2 次元認識方法では不十分です。身体化されたエージェントが学習を通じて 3 次元空間の正確なモデリング能力を習得できるようにする方法は、解決すべき重要な課題となっています。緊急に。 既存の作品は、正面図、上面図、側面図などの複数の視点から3次元空間を復元および再構成します。しかし、必要なコンピューティングリソースが比較的大きく、さまざまなシナリオでの汎化能力が不十分です。 。 限定。 この問題を解決するために、この研究では新しいアプローチを模索しています -
大規模な視覚モデルの強力な一般化能力を、身体化されたエージェントの 3 次元認識の分野に適用する。
SAM-E は、視覚認識のための強力な一般化機能を備えた一般的な視覚的な大規模モデル SAM を使用することを提案しています。これは、特徴抽出機能、インスタンス セグメンテーション機能、複雑なシーンの一般化が可能です。理解力やその他の能力が具体化されたシーンに効果的に伝達されます。 SAM 基本モデルのパフォーマンスをさらに最適化するために、アクション シーケンス ネットワークの概念が導入されます。これにより、単一のアクションの予測を捉えるだけでなく、連続するアクションとアクションの間の内部接続を深く理解することもできます。アクション間のタイミング情報を完全にマイニングすることで、具体化されたシーンを理解し、それに適応するベース モデルの能力がさらに向上します。図 1. SAM-E の全体的なフレームワーク
SAM-E 手法の中核的な観点には主に 2 つの側面が含まれます:
SAM のプロンプト駆動構造を使用することで、強力な ベース モデル が実現されます。タスク言語命令の下で優れた汎化パフォーマンスを発揮するように構築されています。 LoRA 微調整テクノロジーにより、モデルは特定のタスクに適応され、パフォーマンスがさらに向上します。 シーケンシャルアクションモデリングテクノロジー
を採用して、アクションシーケンスのタイミング情報をキャプチャし、タスクの動的な変化をよりよく理解し、ロボットの戦略と実行方法をタイムリーに調整して、タスクの高い実行効率を維持します。ロボット。 プロンプト認識と微調整
以上が身体化された知能の三次元認識の新たな連鎖、TeleAIと上海AIラボは多視点融合身体化モデル「SAM-E」を提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。