人工知能の分野における次の開発の機会は、AI モデルに「身体」を装備し、現実世界と対話して学習することかもしれません。
既存の自然言語処理、コンピュータ ビジョン、および特定の環境で実行されるその他のタスクと比較すると、オープン フィールド ロボティクスは明らかに災害の可能性が高くなります。
たとえば、プロンプトベースの学習では、単一の言語モデルで、コードの作成、要約の実行、プロンプトを変更するだけで、質問に答えることができます。
しかし、ロボット工学では、単一のサンプル デモンストレーションを模倣する、言語の指示に従う、または特定の視覚的な目標を達成するなど、さらに多くの種類のタスク仕様が存在します。通常、さまざまなタスクについて考慮され、それらは 特別に訓練されたモデル によって処理されます。
最近、NVIDIA、スタンフォード大学、マカレスター大学、カリフォルニア工科大学、清華大学、テキサス大学オースティン校の研究者が共同で、Transformer に基づく ユニバーサル ロボットを提案しました。インテリジェント エージェント VIMA は、マルチモーダル プロンプトを使用して、非常に高い 汎化パフォーマンスを実現し、多数のロボット操作タスクを処理できます。
紙のリンク: https://arxiv.org/abs/2210.03094
プロジェクト リンク: https://vimalabs.github.io/
## コード リンク: https://github.com/vimalabs/VIMA入力プロンプトは、
インターリーブされたテキストとビジュアル シンボルです。 VIMA をトレーニングして評価するために、研究者らは、マルチモーダル キューを含む手続き的に生成された何千もの画像、デスクトップ タスク、および 600,000 を超える専門家の軌跡を含む
新しいシミュレーション ベンチマーク データセットを提案します。は模倣学習に使用され、 4 つのレベルでモデルの汎化パフォーマンスを評価します。 同じサイズのモデルと同じ量のトレーニング データを使用し、最も困難なゼロショット汎化設定での VIMA のタスク成功率は現在の sota メソッド 2.9 の成功率です。回
。トレーニング データが 10 倍少ないにもかかわらず、VIMA は他の方法よりも 2.7 倍優れたパフォーマンスを発揮します。
現在、すべてのコード、事前トレーニングされたモデル、データセット、シミュレーションベンチマークは 完全にオープンソース
です。この論文の筆頭著者は、スタンフォード大学の修士 2 年生で、現在 NVIDIA Research Institute でインターンをしている Yunfan Jiang
です。 2020年にエディンバラ大学を卒業。彼の主な研究方向は、環境との相互作用を通じて学習する身体化人工知能 (身体化 AI) です。具体的な研究内容は、大規模な基本モデルを使用してオープンな身体化エージェントを実装する方法です。
論文にはTwoMentors
が含まれています。二人とも李飛飛の元生徒。Zhu Yuke
は、浙江大学を学士号を取得して卒業し、浙江大学とカナダのサイモン フレイザー大学で二重学位を取得しました。修士課程と博士課程の学生はスタンフォード大学でリー・フェイフェイ氏の指導の下で学び、2019年8月に博士号を取得した。 Zhu Yuke は現在、UT オースティン校コンピューター サイエンス学部の助教授、ロボット知覚学習研究所の所長、および NVIDIA 研究所の上級研究員を務めています。Fan Linxi は、リー フェイフェイの指導の下、スタンフォード大学で博士号を取得し卒業し、現在は NVIDIA AI の研究員です。主な研究方向は、一般的に機能する自律エージェントの開発であり、具体的な研究作業には、基本モデル、ポリシー学習、ロボット工学、マルチモーダル学習、および大規模システムが含まれます。 Transformer は、NLP の分野でマルチタスクにおいて非常に高いパフォーマンスを実現しました。質疑応答を完了できるのは 1 つのモデルだけです。翻訳とテキストを同時に表示、要約など さまざまなタスクを実装するためのインターフェイスは入力テキスト プロンプト内にあり、それによって特定のタスク要件が一般的な大規模モデルに渡されます。 このプロンプト インターフェイスは一般的なロボット エージェントでも使用できますか? 家事ロボットの場合、理想的には、「GET ME 」と入力するだけで、ロボットが画像に従ってカップを受け取ることができます。やって来る。 ロボットが新しいスキルを学習する必要がある場合は、ビデオのデモンストレーションを入力して学習するのが最善です。ロボットが見慣れないオブジェクトと対話する必要がある場合は、図だけで簡単に説明できます。 同時に、安全な展開を確保するために、ユーザーは 部屋に入らないでください などの視覚的な制約をさらに指定できます。 ##これらの機能を実現するために、VIMA モデルは主に 1、 形式の 3 つの部分で構成されています。マルチモーダル プロンプト 、ロボット 操作タスクはシーケンス モデリング問題に変換されます; 2. 新しい ロボット エージェント モデル 、複数の機能が可能です-タスク操作 3. エージェントのスケーラビリティと汎用性を体系的に評価するための、さまざまなタスクを使用した 大規模ベンチマーク まず、マルチモーダル プロンプトによってもたらされる柔軟性により、開発者は多数のタスク仕様をサポートするモデルを指定および構築できます。このペーパーでは主に 6 種類のタスクについて検討します。 1、単純なオブジェクト操作、タスク プロンプトは、 を 視覚的な目標到達を実現する、再配置などの目標設定を達成するためにオブジェクトを操作する; 新しい概念を受け入れる (小説)概念の基礎) 、プロンプトには、dax、blicket などの珍しい単語が含まれています。これらの単語は、プロンプト内の画像で説明し、指示の中で直接使用できます。これにより、エージェントの新しい単語の認識をテストできます。速度を知る; ワンショットビデオの模倣、ビデオデモンストレーションを見て、特定のオブジェクトが再現される方法を学ぶ; 視覚的な制約を満たす。ロボットは安全制限に違反しないようにオブジェクトを慎重に操作する必要があります。 視覚的推論(視覚的推論)、一部のタスクではエージェントが推論できる必要があります。たとえば、「すべてのオブジェクトを と同じテクスチャでコンテナに入れる」、または「」などの視覚的な記憶が必要です。 をコンテナに入れて、元の位置に戻します。" 相互に排他的ではないことに注意してください、たとえば、タスクによっては、デモビデオ (模倣) を通じて、これまでに見たことのない動詞 (新しい概念) が導入される場合があります。 #新しいベンチマーク VIM-BENCH マルチモーダル ロボット学習ベンチマーク VIMA-BENCH としていくつかのサポート データも用意しました。 シミュレーション環境(シミュレーション環境)では、既存のベンチマークは通常、特定のタスク仕様を目的としています。現時点では、豊富なマルチモーダル タスク スイートと包括的な A テストを提供できるベンチマークはありません。ターゲットを絞った方法でエージェントの機能を検出するプラットフォーム。 この目的を達成するために、研究者らは、Ravens ロボット シミュレーターを拡張して、オブジェクトとテクスチャの拡張可能なコレクションをサポートし、マルチモーダルなキューを構成し、多数のキューを手続き的に生成することで VIMA-BENCH を構築しました。タスク。 具体的には、VIMA-BENCH は、マルチモーダル プロンプト テンプレートを備えた 17 のメタタスクを提供し、これらを 1000 の独立したタスクにインスタンス化できます。各メタタスクは、上記の 6 つのタスク指定方法の 1 つ以上に属します。 VIMA-BENCH は、スクリプト化された Oracle エージェントを通じて大量の模倣学習データを生成できます。 観察とアクションでは、シミュレータの観察空間は、正面および上から見たビューからレンダリングされた RGB 画像で構成され、ベースラインのリアルなオブジェクトのセグメンテーションと境界ボックスも提供されます。オブジェクト中心モデルのトレーニング用。 VIM-BENCH は、前作からの高度なアクション空間を継承しており、具体的には「ピックアンドプレイス」「ワイプ」などの最も基本的な動作スキルで構成されています。終末効果は姿勢によって決まります。 シミュレータには、すべてのオブジェクトの正確な位置やマルチモーダル命令などの特権付きシミュレータ状態情報を使用できる スクリプト化された Oracle プログラム もあります。 基本的な説明そして専門家のデモンストレーション。 最後に、研究者らは、事前にプログラムされたオラクルによる模倣学習のための専門家の軌跡の大規模なオフライン データセットを生成しました。データセットにはメタタスクごとに 50,000 の軌跡が含まれており、合計で 650,000 の成功した軌跡になります。 また、評価を容易にするためにオブジェクト モデルとテクスチャのサブセットを保持し、17 のメタタスクのうち 4 つをゼロショット汎化テストに使用します。 VIMA-BENCH の各タスク規格には成功と失敗のみがあり、中間状態に対する報酬信号はありません。 テスト時に、研究者は物理シミュレーターでエージェント戦略を実行して成功率を計算しました。評価されたすべてのメタタスクの平均成功率が最終的に報告される指標となります。 評価プロトコルには 4 つのレベル が含まれており、体系的に エージェントの汎化能力を調査します 。各レベルはトレーニングの分布からさらに逸脱しています。したがって、厳密に言えば、一方のレベルはもう一方のレベルより難しいです。 1、配置の一般化 : トレーニング プロセス中は、すべてのプロンプトがそのまま表示されますが、テスト中は、デスクトップ上のオブジェクトの配置はランダムです。 2、組み合わせ一般化: すべてのマテリアル (形容詞) と 3 次元オブジェクト (名詞) はトレーニング中に表示されますが、一部の新しい組み合わせがトレーニング中に表示されます。テスト。 3. 新しいオブジェクトの一般化: テスト プロンプトとシミュレートされたワークスペースには、新しい形容詞とオブジェクトが含まれています。 #4、新しいタスクの一般化: テスト中の新しいプロンプト テンプレートを使用した新しいメタタスク マルチモーダル プロンプトには、合計 3 つの形式が含まれています: 1、Text、事前トレーニングされた T5 モデルを使用します。単語のセグメンテーションを実行し、ワード ベクトルを取得します。 2、デスクトップ シーン全体、最初にマスク R-CNN を使用してすべての独立したオブジェクトを識別します。各オブジェクトは境界ボックスで表され、画像表現をトリミングし、バウンディング ボー エンコーダと ViT をそれぞれ使用してエンコードします。 3、単一オブジェクトの画像も、ViT を使用してトークンを取得し、結果のシーケンスを事前トレーニングされた T5 エンコーダー モデルに入力します。 ロボット コントローラー、つまりデコーダーの入力は、プロンプト シーケンス上の複数のクロスアテンション レイヤー後の表現と軌跡です。 。 このような設計により、プロンプトへの接続が強化され、元のプロンプト トークンをより深く保持して処理できるようになり、コンピューティング効率が向上します。 テスト段階の 実験計画 は、主に 3 つの質問に答えることです: 1、VIMAマルチモーダル プロンプトを使用したさまざまなタスクにおける以前の SOTA Transformer ベースのエージェントとのパフォーマンスの比較; 2、モデル容量とデータ ボリュームのスケーリング プロパティにおける VIMA; ##3. ビジュアルワードセグメンタ、条件プロンプト、条件エンコーディングの違いが最終的な決定に影響します。 比較されるベースライン モデルには、Gato、Flamingo、Decision Transformer(DT) が含まれます。 最初に モデル スケーリング (モデル スケーリング) について、研究者は 2M から 200M のパラメーター サイズのすべてのメソッドをトレーニングし、エンコーダーのサイズは常に T5 ベースに維持されました。 VIMA は、あらゆるレベルでのゼロショット汎化評価において、他の作品よりも明らかに優れています。 Gato と Flamingo はより大きなサイズのモデルでパフォーマンスが向上しましたが、VIMA は依然としてすべてのモデルよりも優れています。 データ スケーリング (データ スケーリング) では、研究者は各手法のトレーニング データに 0.1%、1% を採用しました。 、10% および完全な模倣学習データセットに対するさまざまな実験では、VIMA は 10 倍のデータでトレーニングされた他の手法の L1 および L2 汎化指標を達成するために必要なデータは 1% だけです。 L4 指標では、トレーニング データのわずか 1% で、VIMA はすでに全量のデータでトレーニングされた他のモデルよりも優れています。 プログレッシブ汎化 (漸進的汎化) のパフォーマンス比較では、より困難な汎化タスクでは、Apply がありません。微調整。 VIMA モデルは、特に L1 から L2 および L1 から L3 でパフォーマンスの低下が最も少ないのに対し、他のモデルは 20% 以上低下しています。これは、VIMA がより一般化された戦略とより堅牢な表現を学習したことも意味します。 参考: https://arxiv.org/ abs /2210.03094ロボットとマルチモーダル プロンプト
以上がリー・フェイフェイの2人の弟子が共同指導:「マルチモーダル・プロンプト」を理解できるロボットはゼロショットのパフォーマンスを2.9倍向上させることができるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。