最近、身体化された知性の方向で多くの進歩が見られました。 Google の RT-H から OpenAI と Figure が共同作成した Figure 01 に至るまで、ロボットはよりインタラクティブで多用途になりつつあります。
将来、ロボットが人々の日常生活のアシスタントになったら、どのようなタスクをロボットが完了できると予想しますか?湯気の立つコーヒーを淹れたり、デスクトップを片付けたり、ロマンチックなデートの手配を手伝ったりすることもできます。清華社の新しい統合型インテリジェンス フレームワーク「CoPa」は、これらのタスクを 1 つのコマンドだけで完了できます。
CoPa (Robotic Manipulation through Spatial Constraints of Parts) は、Gao Yang 教授のリーダーシップの下、清華大学ロボット研究チームによって提案された最新のインテリジェント フレームワークです。このフレームワークは、さまざまなシナリオで長距離タスクや複雑な 3D 動作に直面するときのロボットの汎化能力を初めて実現します。
論文アドレス: https://arxiv.org/abs/2403.08248
プロジェクトのホームページ: https://copa-2024.github.io/
ビジュアル言語ラージ モデル (VLM) の独自のアプリケーションのおかげで、CoPa は特別なトレーニングなしでオープンで使用できます。 . さまざまなシナリオに一般化でき、複雑な命令を処理できます。 CoPa で最も印象的なのは、シーン内のオブジェクトの物理的特性を深く理解していること、および正確な計画と操作機能を実証できることです。
たとえば、CoPa は研究者が手で淹れたコーヒーを作るのに役立ちます。
このタスクでは、CoPa はオブジェクト内の各オブジェクトを理解できるだけではありません。複雑なテーブル表示機能を備え、物理的な操作も精密な制御で実現します。たとえば、「やかんからじょうごに水を注ぐ」というタスクでは、ロボットがやかんをじょうごの上で動かし、適切な角度に正確に回転させて、やかんの口からじょうごに水が流れるようにします。
CoPaではロマンチックなデートも丁寧にアレンジいたします。研究者のデートのニーズを理解した後、CoPa は彼らが美しい西洋風のダイニング テーブルを準備するのを手伝いました。
#CoPa は、ユーザーのニーズを深く理解しながら、オブジェクトを正確に操作する能力も発揮します。たとえば、「花瓶に花を挿す」というタスクでは、ロボットはまず花の茎を掴み、花瓶の方向を向くまで回転させ、最後に花を挿します。
メソッドの紹介
アルゴリズムプロセス
ほとんどの操作タスクはそこで分解できますオブジェクトの把握と、タスクを完了するために必要なその後のアクションという 2 つの段階があります。たとえば、引き出しを開けるときは、まず引き出しのハンドルを握り、次に引き出しを直線に沿って引き抜く必要があります。これに基づいて研究者らは、ロボットが物体を掴む姿勢を生成する「タスク指向把握モジュール(タスク指向把握)」と、「タスク関連動作計画」の2段階を設計した。モジュール (タスク認識)「モーション プランニング)」は、掴んだ後にタスクを完了するために必要なポーズを生成します。隣接するポーズ間でのロボットの移動は、従来の経路計画アルゴリズムを通じて実現できます。
重要部品検出モジュール
研究者らは、ほとんどの運用タスクでは、シーン内のオブジェクトの詳細な「部品レベルの理解」が必要であることに気づきました。たとえば、ナイフで何かを切るとき、私たちは刃の代わりに柄を持ちますし、メガネをかけるときはレンズの代わりにフレームを持ちます。この観察に基づいて、研究チームは、現場のタスク関連部分の位置を特定するための「粗い部分から細かい部分までの部分接地モジュール」を設計しました。具体的には、CoPa はまず、粗粒度のオブジェクト検出を通じてシーン内のタスク関連オブジェクトの位置を特定し、次に、詳細粒度の部分検出を通じてこれらのオブジェクトのタスク関連部分の位置を特定します。
「タスク指向掴みモジュール」では、CoPaはまず重要部品検出モジュールを通じて掴み位置(ツールのハンドルなど)を特定し、その位置をこの情報は、GraspNet (シーン内で可能なすべての掴みポーズを生成できるモデル) によって生成された掴みポーズをフィルタリングして、最終的な掴みポーズを取得するために使用されます。
タスク関連動作計画モジュール
大規模な視覚言語モデルがロボットの操作タスクの実行を支援できるようにするために、この研究では、次のようなインターフェイスを設計する必要があります。モデルは言語で推論され、ロボットの操作に役立ちます。研究チームは、タスクの実行中、タスク関連のオブジェクトは通常、多くの空間幾何学的制約を受けることを発見しました。たとえば、携帯電話を充電するときは、充電ヘッドを充電ポートに向ける必要があり、ボトルにキャップをするときは、キャップをボトルの口に直角に置く必要があります。これに基づいて、研究チームは、視覚言語の大規模モデルとロボットの間の橋渡しとして空間制約を使用することを提案しました。具体的には、CoPa はまず大規模な視覚言語モデルを使用して、タスク関連のオブジェクトがタスクを完了する際に満たす必要がある空間制約を生成し、次に解決モジュールを使用してこれらの制約に基づいてロボットのポーズを解決します。
実験結果
CoPa 機能評価
CoPa の実際の運用タスク強力な汎化能力を実証しました。 CoPa は、視覚言語の大規模モデルに組み込まれた常識的な知識を利用することで、シーン内のオブジェクトの物理的特性を深く理解しています。
たとえば、「釘をハンマーする」タスクでは、CoPa は最初にハンマーのハンドルを掴み、次にハンマーの頭が釘の方を向くまでハンマーを回転させ、最後に下向きにハンマーを打ちました。このタスクでは、ハンマーのハンドル、ハンマーの面、釘の面を正確に特定し、それらの空間的関係を完全に理解する必要があり、シーン内のオブジェクトの物理的特性について CoPa が深く理解していることが実証されました。
「消しゴムを引き出しに入れる」というタスクで、CoPa は最初に消しゴムを見つけ、次に消しゴムの一部が紙に包まれていることに気づき、巧みにつかみました。この部分、消しゴムが汚れないように注意してください。
「スプーンをカップに挿入する」というタスクでは、CoPa はまずスプーンのハンドルをつかみ、スプーンが垂直下を向き、カップの方向を向くまで平行移動および回転させました。カップに挿入し、最後にそれをカップに挿入すると、タスクを完了するためにオブジェクトが満たす必要がある空間幾何学的制約を CoPa がよく理解していることがわかります。
研究チームは、10の現実世界のタスクについて十分な定量的実験を実施しました。表 1 に示すように、CoPa は、これらの複雑なタスクにおいて、ベースライン方法だけでなく多くのアブレーション バリアントよりも大幅に優れています。
アブレーション実験
研究者らは、一連のアブレーション実験を通じて、CoPa フレームワークにおける次の 3 つのコンポーネントの重要性を証明しました。基本モデル、粗い部品から細かい部品までの検出、空間制約の生成。実験結果を上記の表1に示す。
基本モデル
表内の基礎アブレーションなしの CoPa 実験では、CoPa の基本モデルの使用が削除され、代わりにオブジェクトの位置を特定するための検出モデルと、空間制約を生成するためのルールベースのアプローチです。実験結果は、このアブレーション変形の成功率が非常に低いことを示しており、CoPa の基本モデルに含まれる豊富な常識知識の重要な役割を証明しています。たとえば、「ナッツの掃除」タスクでは、アブレーション バリアントはシーン内のどのツールが掃除に適しているかを知りません。
粗い部分から細かい部分までの部品の検出
表では、CoPa w/o coarse-to-fine ablation 実験により、粗い部分から CoPa が除去されます。代わりに、きめの細かいセグメンテーションを直接使用してオブジェクトの位置を特定します。この亜種は、オブジェクトの重要な部分を見つけるという比較的困難なタスクのパフォーマンスを大幅に低下させます。たとえば、「釘を打つ」タスクでは、「粗いものから細かいものまで」の設計がないため、ハンマーの表面を識別することが困難になります。
空間制約生成
表内の CoPa w/o 制約アブレーション実験では、CoPa の空間制約生成モジュールが削除され、代わりに視覚的な制約が可能になります。言語 大型モデルはロボットの目標姿勢の具体的な数値を直接出力します。実験の結果、シーン画像に基づいてロボットのターゲット姿勢を直接出力することは非常に難しいことがわかりました。たとえば、「水を注ぐ」タスクではやかんを特定の角度に傾ける必要がありますが、このバリアントでは現時点でロボットの姿勢を生成することがまったくできません。
詳細については、元の論文を参照してください。
以上がコマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。