ロボットにあなたの「ここにいます」を感知させます。清華大学のチームは何百万ものシナリオを使用して、人間と機械の普遍的なハンドオーバーを作成します。
清華大学学際情報研究所の研究者らは、ロボットがユニバーサルビジョンベースの人間と機械の引き継ぎ戦略を学習できるようにすることを目的とした「GenH2R」と呼ばれるフレームワークを提案した。この戦略により、ロボットは多様な形状と複雑な動作軌道を持つさまざまな物体をより確実に捕捉できるようになり、人間とコンピューターのインタラクションに新たな可能性をもたらします。この研究は、人工知能分野の発展に重要なブレークスルーをもたらし、現実のシナリオでのロボットの応用に大きな柔軟性と適応性をもたらします。
身体化インテリジェンス (身体化 AI) の時代の到来に伴い、私たちは知的体が環境と積極的に対話することを期待しています。この過程では、ロボットを人間の生活環境に統合し、人間と対話する(ヒューマン・ロボット・インタラクション)ことが重要になっています。私たちは、人間の行動と意図を理解し、人間の期待に最も応える方法で人間のニーズに応え、人間を身体化された知能の中心に置く方法 (人間中心の身体化 AI) を考える必要があります。重要なスキルの 1 つは、一般化可能な人間からロボットへのハンドオーバーであり、これにより、ロボットが人間とより適切に連携して、料理、家の整理整頓、家具の組み立てなどのさまざまな一般的な日常業務を完了できるようになります。
大規模モデルの爆発的な開発は、大量の高品質データからの大規模学習が一般知能に移行する可能性があることを示しています。では、一般知能は巨大ロボットによって取得できるのでしょうかデータと大規模な戦略の模倣? 人間と機械の引き継ぎスキル?しかし、現実世界でのロボットと人間の間の大規模な対話型学習は危険で費用がかかることを考えると、機械は人間に害を及ぼす可能性が高くなります。 シミュレーション環境で学習し、キャラクターシミュレーションと動的把握動作計画を使用して、大量の多様なロボット学習データを自動的に提供し、これらのデータを実際のロボットに適用します。この学習ベースの手法は「Sim-to」と呼ばれます。 -Real Transfer」は、ロボットと人間の間の協調的なインタラクション能力を大幅に向上させ、より高い信頼性を実現します。
そこで、シミュレーション、デモンストレーション、模倣の 3 つの観点から始めて「GenH2R」フレームワークが提案されました。エンドツーエンドのアプローチに基づいて、あらゆる把持方法、あらゆるハンドオーバー軌道、あらゆるオブジェクト形状に対する普遍的なハンドオーバーを初めて学習
: 1) 「GenH2R-Sim」環境で数百万レベルを提供 さまざまな複雑なシミュレーション生成が容易な引継ぎシナリオ、2) 視覚と行動の連携に基づく一連の自動化された専門家デモンストレーション (Expert Demonstration) 生成プロセスの導入、3) 4D 情報と予測支援 (点群時間) に基づく模倣学習の使用 (Imitation Learning) ) 方法。SOTA メソッド (CVPR2023 ハイライト) と比較して、さまざまなテスト セットにおける GenH2R のメソッドの平均成功率は 14% 増加し、時間は 13% 短縮され、実際にはマシン 実験ではパフォーマンスがより堅牢になります。
紙のアドレス: https://arxiv.org/abs/2401.00929
紙のホームページ: https://GenH2R.github.io
- #紙のビデオ: https://youtu.be/BbphK5QlS1Y
- #メソッドの紹介
- #まだレベルをクリアしていないプレイヤーを助けるために、「シミュレーション環境」の詳細について学びましょう。 (GenH2R-Sim)」のパズルの解き方。
高品質で大規模な人間の手オブジェクト データセットを生成するために、GenH2R-Sim 環境は、把握ポーズと動作軌跡の両方の観点からシーンをモデル化します。
GenH2R-Sim は、把握姿勢に関して、ShapeNet から豊富な 3D オブジェクト モデルを導入し、引き継ぎに適した 3266 個の日常オブジェクトを選択し、器用な把握の生成手法 (DexGraspNet) を使用します。人間の手で物体を掴むシーンが合計 100 万件生成されました。動きの軌跡に関しては、GenH2R-Sim は複数の制御点を使用して複数の滑らかなベジェ曲線を生成し、人間の手や物体の回転を導入して、手で運ばれた物体のさまざまな複雑な動きの軌跡をシミュレートします。
GenH2R-Sim の 100 万シーンでは、モーション軌跡 (1,000 対 100 万) やオブジェクトの数 (20) の点でも最新作をはるかに上回っています。 vs 3266)、また、実際の状況に近いインタラクティブな情報(ロボットアームが対象物に十分近づくと、人間は動きを止めて引き継ぎが完了するのを待つなど)も導入しています。単純な軌跡再生よりも。シミュレーションによって生成されたデータは完全に現実的ではありませんが、実験結果によると、大規模なシミュレーション データは小規模な実際のデータよりも学習に適しています。
#B. 蒸留に有益な専門家事例の大規模な生成
大規模なデータに基づく人間の手と物体の動きの軌跡データ、GenH2R は多数の専門家の例を自動的に生成します。 GenH2R が求める「専門家」は、改良されたモーション プランナー (OMG プランナーなど) です。これらのメソッドは非学習で、制御に最適化されており、視覚点群に依存しません。多くの場合、いくつかのシーン状態 (ターゲットの掴み位置など) が必要です。オブジェクトの)。)。その後のビジュアル ポリシー ネットワークが学習に有益な情報を確実に抽出できるようにするために、重要なのは、「専門家」によって提供される例にビジョンとアクションの相関関係があることを確認することです。計画中に最終着地点がわかっている場合、ロボット アームは視覚を無視して最終位置に直接計画を立てて「待ち続ける」ことができます。これにより、ロボットのカメラが物体を認識できなくなる可能性があります。この例は、下流の視覚戦略ネットワーク; 物体の位置に基づいてロボットアームの計画を頻繁に変更すると、ロボットアームが不連続に動いたり、奇妙な形状になったりして、合理的な把握を完了できなくなる可能性があります。
蒸留に適したエキスパートのサンプルを生成するために、GenH2R では Landmark Planning を導入しています。人間の手の動きの軌跡は、ランドマークを分割マークとして、軌跡の滑らかさと距離に応じて複数のセグメントに分割されます。各セグメントでは、人間の手の軌道は滑らかで、専門家の手法によりランドマーク ポイントに向かって計画されます。このアプローチにより、視覚とアクションの相関性とアクションの連続性の両方が保証されます。
C. 予測支援型 4D 模倣学習ネットワーク
に基づく大規模な専門家の例では、GenH2R は模倣学習手法を使用して 4D ポリシー ネットワークを構築し、観察された時系列点群情報をジオメトリとモーションに分解します。各フレームの点群について、前のフレームの点群と反復最近接点アルゴリズムの間の姿勢変換が計算されて、各点の流れ情報が推定され、各フレームの点群がすべて動きの特性を持つようになります。次に、PointNet を使用して点群の各フレームをエンコードし、最終的に必要な 6D 自己中心アクションをデコードするだけでなく、オブジェクトの将来の姿勢の予測も出力し、将来の手やオブジェクトの動きを予測するポリシー ネットワークの能力を強化します。 。
より複雑な 4D バックボーン (Transformer ベースなど) とは異なり、このネットワーク アーキテクチャは推論速度が速く、オブジェクトの受け渡しに適しています。この種の人間とコンピューターの対話シナリオでは、低遅延が必要であると同時に、タイミング情報を効果的に利用して、簡素さと効率性のバランスを実現できます。
#実験
A. シミュレーション環境実験
GenH2R とSOTA 手法をさまざまな設定で比較しましたが、GenH2R-Sim で小規模な実データをトレーニングに使用する手法と比較して、大規模なシミュレーション データをトレーニングに使用する手法は、大きな利点 (さまざまなテスト セットでの成功率) を達成できます。平均で 14% 増加し、時間は 13% 短縮されます)。
実際のデータ テスト セット s0 では、GenH2R メソッドはより複雑なオブジェクトを正常に引き渡すことができ、グリッパーがオブジェクトに近い場合に頻繁に姿勢を調整する必要がないように、事前に姿勢を調整できます。物体: ###############
シミュレーション データ テスト セット t0 (GenH2R-sim によって導入) では、GenH2R のメソッドは、より合理的な進入軌道を達成するために、物体の将来の姿勢を予測できます。
#実際のデータ テスト セット t1 (GenH2R-sim は HOI4D から導入され、以前の研究の s0 テスト セットより約 7 倍大きい) では、GenH2R のメソッドを目に見えないものに一般化できます。さまざまな幾何学的形状を持つ現実世界のオブジェクト。
B. 実機実験
GenH2R は、学習した戦略を実世界のロボット アームに同時に展開しますそして「シミュレーションからリアルへ」のジャンプを完了します。
より複雑な運動軌跡 (回転など) の場合、GenH2R の戦略はより強い適応性を示し、より複雑な形状の場合、GenH2R の方法はより強い適応性を示します。
##GenH2R は、さまざまなハンドオーバー オブジェクトの実機テストとユーザー調査を完了し、強力な堅牢性を実証しています。
#実験や方法の詳細については、論文のホームページを参照してください。
チーム紹介
この論文は、清華大学 3DVICI 研究室、上海人工知能研究所、上海 Qizhi Research Institute からのものです。清華大学の学生、Wang Zifan (共著)、Chen Junyu (共著)、Chen Ziqing と Xie Pengwei が担当し、講師は Yi Li と Chen Rui です。
清華大学の 3 次元ビジョン コンピューティングおよび機械知能研究所 (略称 3DVICI 研究所) は、清華大学学際情報研究所の下にある人工知能研究所です。イ・リー教授。 3DVICI Lab は、人工知能における一般的な 3 次元視覚とインテリジェント ロボット インタラクションに関する最先端の課題を目指しており、その研究方向性は身体化された知覚、インタラクションの計画と生成、人間と機械のコラボレーションなどをカバーしており、アプリケーションと密接に関連しています。ロボット工学、仮想現実、自動運転などの分野。このチームの研究目標は、インテリジェント エージェントが 3 次元世界を理解し、対話できるようにすることであり、その結果は主要なトップ コンピュータ会議やジャーナルで発表されています。
以上がロボットにあなたの「ここにいます」を感知させます。清華大学のチームは何百万ものシナリオを使用して、人間と機械の普遍的なハンドオーバーを作成します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

何?ズートピアは国産AIによって実現するのか?ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機(VISTA)で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランク ケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、
