ロングコンテキストの大規模モデルは、ロボットが世界を理解するのに役立ちます。
最近、Google DeepMind が突然ロボットを披露し始めました。
このロボットは人間の指示に簡単に従い、視覚的なナビゲーションを実行し、常識的な推論を使用して 3 次元空間内の経路を見つけることができます。 最近Googleからリリースされた大型モデルのGemini 1.5 Proを使用しています。従来の AI モデルを使用する場合、コンテキスト長の制限によりロボットが環境の詳細を思い出すのが難しいことがよくありますが、Gemini 1.5 Pro の 100 万レベルのトークン コンテキスト長により、ロボットに強力な環境記憶機能が提供されます。 実際のオフィスのシナリオでは、エンジニアはロボットを特定のエリアに誘導し、「ルイスのデスク」や「一時的なデスクエリア」など、思い出す必要がある主要な場所にマークを付けます。一周した後、誰かが尋ねれば、ロボットはこれらの記憶に基づいてその人をこれらの場所に連れて行くことができます。 行きたい場所を具体的に言えなくても、目的を伝えるだけで、ロボットが対応する場所へ連れて行ってくれます。これは、ロボットにおける大型モデルの推論能力の具体的な現れです。 これらすべては、Mobility VLA と呼ばれるナビゲーション戦略から切り離すことができません。
- 論文のタイトル: Mobility VLA: Long-Context VLMs and Topological Graphs を使用したマルチモーダル命令ナビゲーション
- 論文のリンク: https://arxiv.org/pdf/2407.07775v1
DeepMind は、この研究は人間とコンピューターの相互作用における次のステップを表していると述べています。将来的には、ユーザーはスマートフォンで簡単に環境ツアーを撮影できるようになるでしょう。ビデオを見た後、パーソナル ロボット アシスタントは環境を理解し、ナビゲートできるようになりました。
モビリティVLA:ロングコンテキストVLMとトポロジマップを使用したマルチモーダル命令ナビゲーション AI技術の継続的な発展により、ロボットナビゲーションは大きな進歩を遂げました。初期の作業は、ユーザーが事前に描画された環境で物理座標を指定することに依存していました。オブジェクト ゴール ナビゲーション (ObjNav) とビジュアル言語ナビゲーション (VLN) は、ユーザーがオープンボキャブラリー言語を使用して「ソファに行く」などのナビゲーション目標を定義できるため、ロボットの使いやすさにおいて大きな進歩をもたらします。
ロボットを本当に便利で日常生活の中で遍在させるために、Google DeepMind の研究者は、ObjNav と VLN の自然言語空間をマルチモーダル空間にアップグレードすることを提案しました。これは、ロボットが自然言語を受け入れることができることを意味します。同時に、さらなる飛躍を達成するために、口頭および/または視覚的な命令を出します。たとえば、建物に慣れていない人がプラスチックの箱を持って「これをどこに返せばいいですか?」と尋ねると、ロボットは口頭と視覚的なコンテキストに基づいてユーザーが箱を棚に戻すように誘導します。彼らは、このタイプのナビゲーション タスクをマルチモーダル指示ナビゲーション (MIN) と呼びます。
MIN は、環境探査とコマンド誘導ナビゲーションを含む広範なミッションです。ただし、多くの場合、デモンストレーション ツアー ビデオを活用することで探索を回避できます。デモンストレーション ツアーにはいくつかの利点があります:
- 収集が簡単: ユーザーはロボットを遠隔制御したり、環境を歩き回りながらスマートフォンでビデオを録画したりできます。さらに、ツアーの作成に使用できる探索アルゴリズムもあります。
- それはユーザーの習慣に準拠しています。ユーザーは新しい家庭用ロボットを手に入れると、自然にロボットを家の中に持ち歩き、訪問中に興味のある場所を口頭で紹介することができます。
- 場合によっては、セキュリティとプライバシーの目的で、ロボットの活動を事前に設定されたエリアに制限することが望ましい場合があります。そこで、著者は、この種のタスク、すなわち、デモンストレーションツアーを活用し、ユーザーのマルチモーダルな指示を満たすことに焦点を当てた「マルチモーダル指示ツアーナビゲーション(MINT)」を紹介および研究します。
最近、大規模視覚言語モデル (VLM) は、言語と画像の理解と常識的推論における優れた能力のおかげで、MINT 問題を解決する上で大きな可能性を示しています。これらは実装の重要な要素です。ミント。然而,单靠 VLM 难以解决 MINT 问题,原因如下:
- 由于上下文长度的限制,许多 VLM 的输入图像数量非常有限,这严重限制了大型环境中环境理解的保真度。
- 解决 MINT 问题需要计算机器人的行动。请求此类机器人动作的查询通常与 VLM(预)训练的内容不一致。因此,机器人的零样本性能往往不能令人满意。
为了解决 MINT 问题,DeepMind 提出了 Mobility VLA,这是一种分层式视觉 - 语言 - 行动(VLA)导航策略。它结合了长上下文 VLM 的环境理解和常识推理能力,以及基于拓扑图的稳健 low-level 导航策略。具体来说,high-level VLM 使用示范游览视频和多模态用户指令来找到游览视频中的目标帧。接下来,一个经典的 low-level 策略使用目标帧和拓扑图(从游览帧中离线构建)在每个时间步生成机器人动作(航点,waypoint)。长上下文 VLM 的使用解决了环境理解的保真度问题,拓扑图则弥补了 VLM 的训练分布与解决 MINT 所需的机器人行动之间的差距。作者在现实世界(836 平方米)的办公室和类似家庭的环境中对移动 VLA 进行了评估。在之前难以实现的涉及复杂推理(例如「我想把东西存放在公众视线之外,我该去哪里?」)和多模态用户指令的 MINT 任务上,Mobility VLA 达到了 86% 和 90% 的成功率(分别比基线方法高出 26% 和 60%)。作者还展示了用户与机器人互动的便捷性的巨大进步,用户可以在家庭环境中使用智能手机进行带解说的视频漫游,然后询问「我的杯垫放在哪里了?」Mobilit VLA 是一种分层导航策略(如图 1 所示),包括在线和离线两个部分。在离线阶段,根据示范游览(N,F)生成拓扑图 G。在在线阶段,high-level 策略通过示范游览和多模态用户指令(d,I)找到导航目标帧索引 g,该索引是一个整数,对应于游览的特定帧。下一步,low-level 策略利用拓扑图、当前摄像头观测数据(O)和 g,在每个时间步产生一个航点动作(a),供机器人执行。其中,h 和 l 分别代表 high-level 和 low-level 策略。Mobility VLA 利用环境示范游览来解决 MINT 问题。这种游览可以由人类用户通过远程操作进行,也可以在环境中行走时用智能手机录制视频。然后,Mobility VLA 会离线构建拓扑图 G = (V,E),其中每个顶点 v_i∈V 都对应演示游览视频 (F, N) 中的帧 f_i。作者使用 COLMAP(一种现成的运动结构管道)来确定每帧的近似 6 自由度相机姿态,并将其存储在顶点中。接下来,如果目标顶点位于源顶点的「前方」(与源顶点的姿态相差小于 90 度),且距离在 2 米以内,则会在 G 中添加一条有向边。与传统的导航 pipeline(例如绘制环境地图、识别可穿越区域,然后构建 PRM)相比,拓扑图方法要简单得多,因为它能根据游览轨迹捕捉环境的一般连通性。基于长上下文多模态 VLM 的 High-Level 目标寻找在在线执行过程中,high-level 策略利用 VLM 的常识推理能力,从示范游览中确定一个导航目标,以满足各种多模态、口语化且往往含糊不清的用户指令。为此,研究者准备了一个由文字和图像交错组成的提示 P (F,N,d,I)。下面是多模态用户指令的一个具体例子,对应的是表 1 中的一个问题 ——「Where should I return this?」。You are a robot operating in a building and your task is to respond to the user command about going to a specific location by finding the closest frame in the tour video to navigate to . These frames are from the tour of the building last year . [ Frame 1 Image f1] Frame 1. [ Frame narrative n1] ... [ Frame k Image fk ] Frame k . [ Frame narrative nk ] This image is what you see now . You may or may not see the user in this image . [ Image Instruction I] The user says : Where should I return this ? How would you respond ? Can you find the closest frame ?
ログイン後にコピー
トポロジーマップを利用して低レベルの目標を達成します 高レベルの戦略がターゲットフレームインデックス g を決定すると、低レベルの戦略 (アルゴリズム 1) が引き継いで、各タイム ステップのタスク ウェイポイント アクションを生成します (式 1)。 各タイムステップで、著者らはリアルタイム階層視覚位置特定システムを使用して、現在のカメラ観測 O を使用してロボットの姿勢 T と最も近い開始頂点 v_s∈G を推定します (5 行目)。位置特定システムは、グローバル記述子を介して G 内の k 個の最も近い候補フレームを見つけ、PnP を介して T を計算します。次に、v_s と対象頂点 v_g (g に対応する頂点) との間の位相グラフ上の最短経路 S をダイクストラ法により決定します (9 行目)。最後に、低レベルのポリシーはウェイポイント アクションを返します。これは、T に対する S の次の頂点 v_1 の Δx、Δy、Δθ です (10 行目)。 モビリティ VLA のパフォーマンスを実証し、主要な設計をさらに理解するために、著者は次の研究上の質問に答える実験を設計しました。
- 質問 1:現実の世界では、Mobility VLA は MINT で適切にパフォーマンスしますか?
- 質問 2: ロング コンテキスト VLM の使用により、モビリティ VLA は代替手段よりも優れたパフォーマンスを発揮しますか?
- 質問 3: トポロジ マップは必要ですか? VLM はアクションを直接生成できますか?
Mobility VLA は、現実世界の環境で堅牢なエンドツーエンドのパフォーマンスを発揮します 1. 高いエンドツーエンドの成功率。表 2 は、Mobility VLA が、これまで実現不可能であった「推論要件」や「マルチモーダル」命令を含む、ほとんどのユーザー命令カテゴリにわたって高いエンドツーエンドのナビゲーション成功率を達成していることを示しています。 2. 堅固な低レベルの目標が達成されました。表 2 は、Mobility VLA の下位レベルの目標達成戦略の実際の堅牢性 (100% の成功率) も示しています。含まれているデモンストレーション ツアーは、多くの物体、家具、照明条件が異なる実験の数か月前に記録されました。 ロングコンテキスト VLM は、高度なターゲット検索において代替手段を上回ります 1. モビリティ VLA は代替手段を上回ります。表 3 は、Mobility VLA の高レベルのターゲット発見成功率が比較手法の成功率よりも大幅に高いことを示しています。低レベルの成功率が 100% であるとすると、この高レベルのターゲット ルックアップの成功率はエンドツーエンドの成功率を表します。 2. ロングコンテキスト VLM を使用して高フレームレートのツアービデオを処理することが成功の鍵です。各イメージには数百のトークンのバジェットが必要なため、大規模な環境の完全なデモンストレーション ツアーを非ロング コンテキスト VLM に入力することは困難です。入力トークンの数を減らす 1 つの解決策は、中間フレームを失うという犠牲を払って、ツアー ビデオのフレーム レートを下げることです。表 4 は、ツアー フレーム レートが低下すると、高レベル ターゲット ルックアップの成功率も低下することを示しています。フレーム レートが低いツアー ビデオではナビゲーション ターゲット フレームが失われる場合があるため、これは驚くべきことではありません。さらに、最先端の VLM を比較すると、コンテキスト長が最大 100 万トークンであるため、満足のいく成功率を示しているのは Gemini 1.5 Pro だけです。 表 5 は、プロンプト VLM の直接出力ウェイポイント操作と比較した、シミュレーションにおける Mobility VLA のエンドツーエンドのパフォーマンスを示しています。エンドツーエンド成功率 0% は、Gemini 1.5 Pro がトポロジー マップなしではロボットのゼロショット ナビゲーションを達成できないことを示しています。実験に基づいて、著者は、現在のカメラの観察に関係なく、Gemini がほぼ常に「前進」ウェイポイント アクションを出力することを発見しました。さらに、現在の Gemini 1.5 API では、推論呼び出しごとに 948 個のツアー画像すべてをアップロードする必要があるため、ロボットが 1 メートル移動するごとに 26 秒という法外なコストの実行時間が発生します。一方、モビリティ VLA の高レベル VLM は、ターゲット インデックスを見つけるのに 10 ~ 30 秒かかります。その後、ロボットは低レベル トポロジ マップを使用してターゲットに移動し、その結果、非常に堅牢で効率的な (0.19 1 ステップあたり秒) システムで MINT 問題を解決します。Please refer to the original paper for more details. 以上がロボットにはGemini 1.5 Proが搭載されており、訪問後のコンシェルジュや案内を行うことができる。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。