コマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。
最近、身体化された知性の方向で多くの進歩が見られました。 Google の RT-H から OpenAI と Figure が共同作成した Figure 01 に至るまで、ロボットはよりインタラクティブで多用途になりつつあります。
将来、ロボットが人々の日常生活のアシスタントになったら、どのようなタスクをロボットが完了できると予想しますか?湯気の立つコーヒーを淹れたり、デスクトップを片付けたり、ロマンチックなデートの手配を手伝ったりすることもできます。清華社の新しい統合型インテリジェンス フレームワーク「CoPa」は、これらのタスクを 1 つのコマンドだけで完了できます。
CoPa (Robotic Manipulation through Spatial Constraints of Parts) は、Gao Yang 教授のリーダーシップの下、清華大学ロボット研究チームによって提案された最新のインテリジェント フレームワークです。このフレームワークは、さまざまなシナリオで長距離タスクや複雑な 3D 動作に直面するときのロボットの汎化能力を初めて実現します。
論文アドレス: https://arxiv.org/abs/2403.08248
プロジェクトのホームページ: https://copa-2024.github.io/
ビジュアル言語ラージ モデル (VLM) の独自のアプリケーションのおかげで、CoPa は特別なトレーニングなしでオープンで使用できます。 . さまざまなシナリオに一般化でき、複雑な命令を処理できます。 CoPa で最も印象的なのは、シーン内のオブジェクトの物理的特性を深く理解していること、および正確な計画と操作機能を実証できることです。
たとえば、CoPa は研究者が手で淹れたコーヒーを作るのに役立ちます。
このタスクでは、CoPa はオブジェクト内の各オブジェクトを理解できるだけではありません。複雑なテーブル表示機能を備え、物理的な操作も精密な制御で実現します。たとえば、「やかんからじょうごに水を注ぐ」というタスクでは、ロボットがやかんをじょうごの上で動かし、適切な角度に正確に回転させて、やかんの口からじょうごに水が流れるようにします。
CoPaではロマンチックなデートも丁寧にアレンジいたします。研究者のデートのニーズを理解した後、CoPa は彼らが美しい西洋風のダイニング テーブルを準備するのを手伝いました。
#CoPa は、ユーザーのニーズを深く理解しながら、オブジェクトを正確に操作する能力も発揮します。たとえば、「花瓶に花を挿す」というタスクでは、ロボットはまず花の茎を掴み、花瓶の方向を向くまで回転させ、最後に花を挿します。

メソッドの紹介
アルゴリズムプロセス
ほとんどの操作タスクはそこで分解できますオブジェクトの把握と、タスクを完了するために必要なその後のアクションという 2 つの段階があります。たとえば、引き出しを開けるときは、まず引き出しのハンドルを握り、次に引き出しを直線に沿って引き抜く必要があります。これに基づいて研究者らは、ロボットが物体を掴む姿勢を生成する「タスク指向把握モジュール(タスク指向把握)」と、「タスク関連動作計画」の2段階を設計した。モジュール (タスク認識)「モーション プランニング)」は、掴んだ後にタスクを完了するために必要なポーズを生成します。隣接するポーズ間でのロボットの移動は、従来の経路計画アルゴリズムを通じて実現できます。
重要部品検出モジュール
研究者らは、ほとんどの運用タスクでは、シーン内のオブジェクトの詳細な「部品レベルの理解」が必要であることに気づきました。たとえば、ナイフで何かを切るとき、私たちは刃の代わりに柄を持ちますし、メガネをかけるときはレンズの代わりにフレームを持ちます。この観察に基づいて、研究チームは、現場のタスク関連部分の位置を特定するための「粗い部分から細かい部分までの部分接地モジュール」を設計しました。具体的には、CoPa はまず、粗粒度のオブジェクト検出を通じてシーン内のタスク関連オブジェクトの位置を特定し、次に、詳細粒度の部分検出を通じてこれらのオブジェクトのタスク関連部分の位置を特定します。
「タスク指向掴みモジュール」では、CoPaはまず重要部品検出モジュールを通じて掴み位置(ツールのハンドルなど)を特定し、その位置をこの情報は、GraspNet (シーン内で可能なすべての掴みポーズを生成できるモデル) によって生成された掴みポーズをフィルタリングして、最終的な掴みポーズを取得するために使用されます。
タスク関連動作計画モジュール
大規模な視覚言語モデルがロボットの操作タスクの実行を支援できるようにするために、この研究では、次のようなインターフェイスを設計する必要があります。モデルは言語で推論され、ロボットの操作に役立ちます。研究チームは、タスクの実行中、タスク関連のオブジェクトは通常、多くの空間幾何学的制約を受けることを発見しました。たとえば、携帯電話を充電するときは、充電ヘッドを充電ポートに向ける必要があり、ボトルにキャップをするときは、キャップをボトルの口に直角に置く必要があります。これに基づいて、研究チームは、視覚言語の大規模モデルとロボットの間の橋渡しとして空間制約を使用することを提案しました。具体的には、CoPa はまず大規模な視覚言語モデルを使用して、タスク関連のオブジェクトがタスクを完了する際に満たす必要がある空間制約を生成し、次に解決モジュールを使用してこれらの制約に基づいてロボットのポーズを解決します。
実験結果
CoPa 機能評価
CoPa の実際の運用タスク強力な汎化能力を実証しました。 CoPa は、視覚言語の大規模モデルに組み込まれた常識的な知識を利用することで、シーン内のオブジェクトの物理的特性を深く理解しています。
たとえば、「釘をハンマーする」タスクでは、CoPa は最初にハンマーのハンドルを掴み、次にハンマーの頭が釘の方を向くまでハンマーを回転させ、最後に下向きにハンマーを打ちました。このタスクでは、ハンマーのハンドル、ハンマーの面、釘の面を正確に特定し、それらの空間的関係を完全に理解する必要があり、シーン内のオブジェクトの物理的特性について CoPa が深く理解していることが実証されました。
「消しゴムを引き出しに入れる」というタスクで、CoPa は最初に消しゴムを見つけ、次に消しゴムの一部が紙に包まれていることに気づき、巧みにつかみました。この部分、消しゴムが汚れないように注意してください。
「スプーンをカップに挿入する」というタスクでは、CoPa はまずスプーンのハンドルをつかみ、スプーンが垂直下を向き、カップの方向を向くまで平行移動および回転させました。カップに挿入し、最後にそれをカップに挿入すると、タスクを完了するためにオブジェクトが満たす必要がある空間幾何学的制約を CoPa がよく理解していることがわかります。
研究チームは、10の現実世界のタスクについて十分な定量的実験を実施しました。表 1 に示すように、CoPa は、これらの複雑なタスクにおいて、ベースライン方法だけでなく多くのアブレーション バリアントよりも大幅に優れています。
アブレーション実験
研究者らは、一連のアブレーション実験を通じて、CoPa フレームワークにおける次の 3 つのコンポーネントの重要性を証明しました。基本モデル、粗い部品から細かい部品までの検出、空間制約の生成。実験結果を上記の表1に示す。
基本モデル
表内の基礎アブレーションなしの CoPa 実験では、CoPa の基本モデルの使用が削除され、代わりにオブジェクトの位置を特定するための検出モデルと、空間制約を生成するためのルールベースのアプローチです。実験結果は、このアブレーション変形の成功率が非常に低いことを示しており、CoPa の基本モデルに含まれる豊富な常識知識の重要な役割を証明しています。たとえば、「ナッツの掃除」タスクでは、アブレーション バリアントはシーン内のどのツールが掃除に適しているかを知りません。
粗い部分から細かい部分までの部品の検出
表では、CoPa w/o coarse-to-fine ablation 実験により、粗い部分から CoPa が除去されます。代わりに、きめの細かいセグメンテーションを直接使用してオブジェクトの位置を特定します。この亜種は、オブジェクトの重要な部分を見つけるという比較的困難なタスクのパフォーマンスを大幅に低下させます。たとえば、「釘を打つ」タスクでは、「粗いものから細かいものまで」の設計がないため、ハンマーの表面を識別することが困難になります。
空間制約生成
表内の CoPa w/o 制約アブレーション実験では、CoPa の空間制約生成モジュールが削除され、代わりに視覚的な制約が可能になります。言語 大型モデルはロボットの目標姿勢の具体的な数値を直接出力します。実験の結果、シーン画像に基づいてロボットのターゲット姿勢を直接出力することは非常に難しいことがわかりました。たとえば、「水を注ぐ」タスクではやかんを特定の角度に傾ける必要がありますが、このバリアントでは現時点でロボットの姿勢を生成することがまったくできません。
詳細については、元の論文を参照してください。
以上がコマンドひとつで、コーヒーを淹れたり、赤ワインを注いだり、釘を打ったりできる清華のスマートCoPaが具現化されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









でももしかしたら公園の老人には勝てないかもしれない?パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボット エージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition(以下、「Yuanluobot SenseRobot」という)をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。 「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標(速度、負荷)を追求していると説明した。など)、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件(未発表2件)、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザー プリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマート スクリーン S5Pro など、スマート トラベル、スマート オフィスからスマート ウェアに至るまで、多くの新しいオールシナリオ スマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフル シナリオのスマート エコシステムを構築し続けています。すべてのインターネット。宏孟志興氏:スマートカー業界のアップグレードを促進するための徹底的な権限付与 ファーウェイは中国の自動車業界パートナーと提携して、

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。 、そしてティーポットを一定の角度に傾けます。これ

Machine Power Report 編集者: Yang Wen 大型モデルや AIGC に代表される人工知能の波は、私たちの生活や働き方を静かに変えていますが、ほとんどの人はまだその使い方を知りません。そこで、直感的で興味深く簡潔な人工知能のユースケースを通じてAIの活用方法を詳しく紹介し、皆様の思考を刺激するコラム「AI in Use」を立ち上げました。また、読者が革新的な実践的な使用例を提出することも歓迎します。なんと、AIは本当に天才になってしまったのです。最近、AIが生成した写真の真贋を見分けるのが難しいと話題になっています。 (詳しくはこちら:AI活用中 | 3ステップでAI美女になり、1秒でAIに元に戻される) インターネット上で人気のAI Google ladyのほかにも、さまざまなFLUXジェネレーターが登場しています。ソーシャルプラットフォーム上に出現した
