コマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。-AI-php.cn

ホームページ

テクノロジー周辺機器

コマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 18, 2024 pm 02:50 PM

業界身体化された知性ロボット技術 copa

最近、身体化された知性の方向で多くの進歩が見られました。 Google の RT-H から OpenAI と Figure が共同作成した Figure 01 に至るまで、ロボットはよりインタラクティブで多用途になりつつあります。

将来、ロボットが人々の日常生活のアシスタントになったら、どのようなタスクをロボットが完了できると予想しますか?湯気の立つコーヒーを淹れたり、デスクトップを片付けたり、ロマンチックなデートの手配を手伝ったりすることもできます。清華社の新しい統合型インテリジェンスフレームワーク「CoPa」は、これらのタスクを 1 つのコマンドだけで完了できます。

CoPa (Robotic Manipulation through Spatial Constraints of Parts) は、Gao Yang 教授のリーダーシップの下、清華大学ロボット研究チームによって提案された最新のインテリジェントフレームワークです。このフレームワークは、さまざまなシナリオで長距離タスクや複雑な 3D 動作に直面するときのロボットの汎化能力を初めて実現します。

コマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。

論文アドレス: https://arxiv.org/abs/2403.08248
プロジェクトのホームページ: https://copa-2024.github.io/

ビジュアル言語ラージモデル (VLM) の独自のアプリケーションのおかげで、CoPa は特別なトレーニングなしでオープンで使用できます。 . さまざまなシナリオに一般化でき、複雑な命令を処理できます。 CoPa で最も印象的なのは、シーン内のオブジェクトの物理的特性を深く理解していること、および正確な計画と操作機能を実証できることです。

たとえば、CoPa は研究者が手で淹れたコーヒーを作るのに役立ちます。

このタスクでは、CoPa はオブジェクト内の各オブジェクトを理解できるだけではありません。複雑なテーブル表示機能を備え、物理的な操作も精密な制御で実現します。たとえば、「やかんからじょうごに水を注ぐ」というタスクでは、ロボットがやかんをじょうごの上で動かし、適切な角度に正確に回転させて、やかんの口からじょうごに水が流れるようにします。

CoPaではロマンチックなデートも丁寧にアレンジいたします。研究者のデートのニーズを理解した後、CoPa は彼らが美しい西洋風のダイニングテーブルを準備するのを手伝いました。

#CoPa は、ユーザーのニーズを深く理解しながら、オブジェクトを正確に操作する能力も発揮します。たとえば、「花瓶に花を挿す」というタスクでは、ロボットはまず花の茎を掴み、花瓶の方向を向くまで回転させ、最後に花を挿します。

コマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。

メソッドの紹介

アルゴリズムプロセス

ほとんどの操作タスクはそこで分解できますオブジェクトの把握と、タスクを完了するために必要なその後のアクションという 2 つの段階があります。たとえば、引き出しを開けるときは、まず引き出しのハンドルを握り、次に引き出しを直線に沿って引き抜く必要があります。これに基づいて研究者らは、ロボットが物体を掴む姿勢を生成する「タスク指向把握モジュール（タスク指向把握）」と、「タスク関連動作計画」の2段階を設計した。モジュール (タスク認識)「モーションプランニング)」は、掴んだ後にタスクを完了するために必要なポーズを生成します。隣接するポーズ間でのロボットの移動は、従来の経路計画アルゴリズムを通じて実現できます。

コマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。

重要部品検出モジュール

研究者らは、ほとんどの運用タスクでは、シーン内のオブジェクトの詳細な「部品レベルの理解」が必要であることに気づきました。たとえば、ナイフで何かを切るとき、私たちは刃の代わりに柄を持ちますし、メガネをかけるときはレンズの代わりにフレームを持ちます。この観察に基づいて、研究チームは、現場のタスク関連部分の位置を特定するための「粗い部分から細かい部分までの部分接地モジュール」を設計しました。具体的には、CoPa はまず、粗粒度のオブジェクト検出を通じてシーン内のタスク関連オブジェクトの位置を特定し、次に、詳細粒度の部分検出を通じてこれらのオブジェクトのタスク関連部分の位置を特定します。

コマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。

「タスク指向掴みモジュール」では、CoPaはまず重要部品検出モジュールを通じて掴み位置(ツールのハンドルなど)を特定し、その位置をこの情報は、GraspNet (シーン内で可能なすべての掴みポーズを生成できるモデル) によって生成された掴みポーズをフィルタリングして、最終的な掴みポーズを取得するために使用されます。

タスク関連動作計画モジュール

大規模な視覚言語モデルがロボットの操作タスクの実行を支援できるようにするために、この研究では、次のようなインターフェイスを設計する必要があります。モデルは言語で推論され、ロボットの操作に役立ちます。研究チームは、タスクの実行中、タスク関連のオブジェクトは通常、多くの空間幾何学的制約を受けることを発見しました。たとえば、携帯電話を充電するときは、充電ヘッドを充電ポートに向ける必要があり、ボトルにキャップをするときは、キャップをボトルの口に直角に置く必要があります。これに基づいて、研究チームは、視覚言語の大規模モデルとロボットの間の橋渡しとして空間制約を使用することを提案しました。具体的には、CoPa はまず大規模な視覚言語モデルを使用して、タスク関連のオブジェクトがタスクを完了する際に満たす必要がある空間制約を生成し、次に解決モジュールを使用してこれらの制約に基づいてロボットのポーズを解決します。

コマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。

実験結果

CoPa 機能評価

CoPa の実際の運用タスク強力な汎化能力を実証しました。 CoPa は、視覚言語の大規模モデルに組み込まれた常識的な知識を利用することで、シーン内のオブジェクトの物理的特性を深く理解しています。

たとえば、「釘をハンマーする」タスクでは、CoPa は最初にハンマーのハンドルを掴み、次にハンマーの頭が釘の方を向くまでハンマーを回転させ、最後に下向きにハンマーを打ちました。このタスクでは、ハンマーのハンドル、ハンマーの面、釘の面を正確に特定し、それらの空間的関係を完全に理解する必要があり、シーン内のオブジェクトの物理的特性について CoPa が深く理解していることが実証されました。

コマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。

「消しゴムを引き出しに入れる」というタスクで、CoPa は最初に消しゴムを見つけ、次に消しゴムの一部が紙に包まれていることに気づき、巧みにつかみました。この部分、消しゴムが汚れないように注意してください。

コマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。

「スプーンをカップに挿入する」というタスクでは、CoPa はまずスプーンのハンドルをつかみ、スプーンが垂直下を向き、カップの方向を向くまで平行移動および回転させました。カップに挿入し、最後にそれをカップに挿入すると、タスクを完了するためにオブジェクトが満たす必要がある空間幾何学的制約を CoPa がよく理解していることがわかります。

コマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。

研究チームは、10の現実世界のタスクについて十分な定量的実験を実施しました。表 1 に示すように、CoPa は、これらの複雑なタスクにおいて、ベースライン方法だけでなく多くのアブレーションバリアントよりも大幅に優れています。

コマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。

アブレーション実験

研究者らは、一連のアブレーション実験を通じて、CoPa フレームワークにおける次の 3 つのコンポーネントの重要性を証明しました。基本モデル、粗い部品から細かい部品までの検出、空間制約の生成。実験結果を上記の表１に示す。

基本モデル

表内の基礎アブレーションなしの CoPa 実験では、CoPa の基本モデルの使用が削除され、代わりにオブジェクトの位置を特定するための検出モデルと、空間制約を生成するためのルールベースのアプローチです。実験結果は、このアブレーション変形の成功率が非常に低いことを示しており、CoPa の基本モデルに含まれる豊富な常識知識の重要な役割を証明しています。たとえば、「ナッツの掃除」タスクでは、アブレーションバリアントはシーン内のどのツールが掃除に適しているかを知りません。

粗い部分から細かい部分までの部品の検出

表では、CoPa w/o coarse-to-fine ablation 実験により、粗い部分から CoPa が除去されます。代わりに、きめの細かいセグメンテーションを直接使用してオブジェクトの位置を特定します。この亜種は、オブジェクトの重要な部分を見つけるという比較的困難なタスクのパフォーマンスを大幅に低下させます。たとえば、「釘を打つ」タスクでは、「粗いものから細かいものまで」の設計がないため、ハンマーの表面を識別することが困難になります。

空間制約生成

表内の CoPa w/o 制約アブレーション実験では、CoPa の空間制約生成モジュールが削除され、代わりに視覚的な制約が可能になります。言語大型モデルはロボットの目標姿勢の具体的な数値を直接出力します。実験の結果、シーン画像に基づいてロボットのターゲット姿勢を直接出力することは非常に難しいことがわかりました。たとえば、「水を注ぐ」タスクではやかんを特定の角度に傾ける必要がありますが、このバリアントでは現時点でロボットの姿勢を生成することがまったくできません。

詳細については、元の論文を参照してください。

以上がコマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7751

Java チュートリアル

1643

CakePHP チュートリアル

1397

Laravel チュートリアル

1293

PHP チュートリアル

1234

Related knowledge

DeepMind ロボットが卓球をすると、フォアハンドとバックハンドが空中に滑り出し、人間の初心者を完全に打ち負かしました Aug 09, 2024 pm 04:01 PM

でももしかしたら公園の老人には勝てないかもしれない？パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボットエージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

初のメカニカルクロー！元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した Aug 21, 2024 pm 07:33 PM

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition（以下、「Yuanluobot SenseRobot」という）をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

クロードも怠け者になってしまった！ネチズン: 自分に休日を与える方法を学びましょう Sep 02, 2024 pm 01:56 PM

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました Aug 22, 2024 pm 10:35 PM

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標（速度、負荷）を追求していると説明した。など）、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件（未発表2件）、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました Aug 08, 2024 am 07:02 AM

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザープリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマートスクリーン S5Pro など、スマートトラベル、スマートオフィスからスマートウェアに至るまで、多くの新しいオールシナリオスマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフルシナリオのスマートエコシステムを構築し続けています。すべてのインターネット。宏孟志興氏：スマートカー業界のアップグレードを促進するための徹底的な権限付与ファーウェイは中国の自動車業界パートナーと提携して、

Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました Sep 03, 2024 pm 05:18 PM

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。、そしてティーポットを一定の角度に傾けます。これ

分散型人工知能カンファレンス DAI 2024 論文募集: エージェントデイ、強化学習の父であるリチャードサットン氏が出席します。 Yan Shuicheng、Sergey Levine、DeepMind の科学者が基調講演を行います Aug 22, 2024 pm 08:02 PM

会議の紹介科学技術の急速な発展に伴い、人工知能は社会の進歩を促進する重要な力となっています。この時代に、分散型人工知能 (DAI) の革新と応用を目撃し、参加できることは幸運です。分散型人工知能は人工知能分野の重要な分野であり、近年ますます注目を集めています。大規模言語モデル (LLM) に基づくエージェントは、大規模モデルの強力な言語理解機能と生成機能を組み合わせることで、自然言語対話、知識推論、タスク計画などにおいて大きな可能性を示しました。 AIAgent は大きな言語モデルを引き継ぎ、現在の AI 界隈で話題になっています。アウ

See all articles

コマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック