北京大学ドンハオチームエンボディドナビゲーション最新の結果はこちら:
追加のマッピングやトレーニングは必要なく、次のようなナビゲーションの指示を話すだけです:
部屋を横切って前に歩き、パンツの中を歩き、続いてキッチンに行きます。キッチンの端に立ってください。
ロボットが柔軟に動くように制御できます。
ここで、ロボットは、大規模なモデルで構成される「専門家チーム」と積極的にコミュニケーションをとり、コマンド分析、ビジョンを完了します。知覚、完了予測、意思決定テストなど、さまざまな視覚言語ナビゲーションの重要なタスク。
プロジェクトのホームページと論文は現在オンラインであり、コードは間もなくリリースされる予定です。ロボットは人間の指示に従って移動しますか?
視覚言語ナビゲーションには、指示分析、視覚認識、完了推定、意思決定テストなどの一連のサブタスクが含まれます。
これらの重要なタスクにはさまざまな分野の知識が必要であり、それらは相互に関連しており、ロボットのナビゲーション能力を決定します。 専門家の実際の議論行動に触発されて、北京大学ドンハオチームはDiscussNav ナビゲーション システムを提案しました。 著者はまず専門家の役割と特定のタスクを LLM (大規模言語モデル) と MLM (マルチモーダル大規模モデル)
に迅速に割り当て、ドメイン知識を活性化します。これにより、さまざまな専門分野を持つビジュアル ナビゲーションの専門家のチームが構築されます。
その後、著者はディスカッション質問のコーパスとディスカッション メカニズムを設計しました。このメカニズムに従って、LLM によって駆動されるナビゲーション ロボットが能動的にディスカッションを開始できます。一連の視覚的インタラクション、ナビゲーション専門家のディスカッション。
ナビゲーション ロボットは、移動する前に専門家と話し合い、必要なアクションや人間の指示オブジェクトの標識に記載されている内容を理解します。
そして、これらのオブジェクトマークの種類に基づいて、周囲の環境を知覚し、指示完了状況を推定し、事前の動作判定を行う。
意思決定プロセス中、ナビゲーション ロボットは同時に N 個の独立した情報を生成します。予測結果が矛盾する場合、ロボットは意思決定に助けを求めます。テストの専門家がモバイルに関する最終的な決定を除外します。 このプロセスから、従来の方法と比較して、追加の事前トレーニングが必要であることがわかります。この方法は、大規模モデルの専門家と対話することで人間の指示に従ってロボットが動くように誘導し、 問題を直接解決しますロボットナビゲーショントレーニングデータの不足の問題
。さらに、この機能があるからこそ、ゼロサンプル機能も実現しており、上記の議論のプロセスに従う限り、さまざまなナビゲーション指示に従うことができます。
以下は、古典的なビジュアル言語ナビゲーション データ セット Room2Room での DiscussionNav のパフォーマンスです。
ご覧のとおり、これはすべてのゼロショット手法よりも大幅に高く、訓練された 2 つの手法
をも上回っています。 。
著者はさらに、Turtlebot4 モバイル ロボットで実際の屋内シーンのナビゲーション実験を実行しました。
専門家のロールプレイングやディスカッションからインスピレーションを得た大規模モデルの強力な言語と視覚的一般化機能により、現実世界における DiscussNav のパフォーマンスは、以前の最適なゼロショット手法や事前トレーニングの微調整よりも大幅に優れています。シミュレーションからリアルへの優れた移行機能を示します。実験を通じて、著者はさらに、DiscussNav が
4 つの強力な能力を生み出すことを発見しました。
:
1.「白いテーブルの上のロボットアーム」や「椅子の上のテディベア」などのオープンワールドオブジェクトを特定します。
2.「キッチン カウンター上の植物」や「テーブル上の紙パック」など、きめ細かいナビゲーション ランドマーク オブジェクトを特定します。
3. ディスカッション内の他の専門家が回答した誤った情報を修正します。たとえば、ロゴ抽出専門家は、ナビゲーション アクション シーケンスからナビゲーション ロゴを抽出する前に、誤って分解されたアクション シーケンスをチェックして修正します。
4. 一貫性のない動作の決定を排除する: たとえば、意思決定テストの専門家は、現在の環境情報に基づいて DiscussNav によって予測された複数の一貫性のない動作の決定から、最も合理的なものを最終的な動作の決定として選択できます。
責任著者の Dong Hao は、以前のレポートで、シミュレーション データと大規模モデルを効果的に使用して大量のデータから学習する方法を詳しく調査することを提案しました。事前知識は、将来の身体化知能研究の発展方向となります。
現在、データの規模と実環境の探索にかかる高額なコストによって制限されている身体化インテリジェンスの研究は、引き続きシミュレーション プラットフォームの実験とシミュレーション データのトレーニングに焦点を当てます。
大規模モデルにおける最近の進歩は、身体化された知能に新たな方向性をもたらしました。大規模モデルにおける言語の常識と物理世界の事前知識の適切な探索と利用は、身体化された知能の開発を促進します。
論文アドレス: https://arxiv.org/abs/2309.11382
以上が北京大学の身体化された知性の新たな成果:トレーニング不要、指示に従えば柔軟に動けるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。