


Byte AI Lab のコア テクノロジーは、従来の手法と模倣学習を組み合わせた Habitat Challenge 2022 アクティブ ナビゲーション チャンピオンシップで優勝しました。
オブジェクトのナビゲーションは、インテリジェント ロボットの基本的なタスクの 1 つです。このタスクでは、知能ロボットは未知の新しい環境で人間が指定した特定の種類のオブジェクトを積極的に探索して見つけます。オブジェクト ターゲット ナビゲーション タスクは、将来のホーム サービス ロボットのアプリケーション ニーズを指向しています。水を一杯飲むなど、人間がロボットに特定のタスクを完了させる必要がある場合、ロボットはまず水カップの位置を見つけて移動する必要があります。 、そして人々が水のカップを手に入れるのを手伝います。
ハビタット チャレンジは、Meta AI などが共催するオブジェクト ナビゲーション分野の著名なコンテストの 1 つで、2022 年現在 4 年連続で開催されています。この大会には54チームが参加しました。コンテストでは、ByteDance AI Lab-Research チームの研究者が、既存の方法の欠点に対処するための新しいオブジェクト ターゲット ナビゲーション フレームワークを提案しました。このフレームワークは、模倣学習と従来の手法を巧みに組み合わせて、群衆から抜きん出てチャンピオンシップに勝ちます。主要指標であるSPLにおいて、2位以下の参加チームの成績を大きく上回る成績。歴史的に、このイベントの優勝チームは、CMU、UC Berkerly、Facebook などの一般的に有名な研究機関です。
テスト標準リスト
テストチャレンジリスト
ハビタットチャレンジ公式ウェブサイト: https ://aihaveat.org/challenge/2022/
ハビタット チャレンジ コンペティション リーダーボード: https://eval.ai/web/challenges/challenge-page/1615/leaderboard
1 . 研究動機
現在のオブジェクト ターゲット ナビゲーション方法は、エンドツーエンド方法とマップベース方法の 2 つのカテゴリに大別できます。エンドツーエンド手法では、入力センサー データの特徴を抽出し、それを深層学習モデルに送信してアクションを取得します。このような手法は、一般に強化学習または模倣学習に基づいています (図 1 マップレス手法)。ベースの手法は一般に、明示的または暗黙的なマップを構築し、強化学習やその他の手法を通じてマップ上のターゲット ポイントを選択し、最後に経路を計画してアクションを取得します (図 1 マップベースの手法)。
図 1 エンドツーエンド方式 (上) とマップベース方式 (下) のフローチャート
After多くの実験 2 種類の方法を比較した結果、研究者らは 2 種類の方法にそれぞれ長所と短所があることを発見しました。エンドツーエンドの方法は環境のマップを構築する必要がないため、より簡潔です。さまざまなシナリオでより強力な汎化能力を備えています。ただし、ネットワークは環境の空間情報をエンコードすることを学習する必要があるため、大量のトレーニング データに依存し、ターゲット オブジェクトの近くで停止するなど、いくつかの単純な動作を同時に学習することは困難です。マップベースの方法では、ラスターを使用してフィーチャまたはセマンティクスを保存し、明示的な空間情報を持っているため、このタイプの動作の学習しきい値は低くなります。ただし、正確な測位結果に大きく依存しており、階段などの一部の環境では、知覚と経路計画戦略の人為的な設計が必要になります。
上記の結論に基づいて、ByteDance AI Lab-Research チームの研究者は、2 つの方法の利点を組み合わせたいと考えています。ただし、これら 2 つの手法のアルゴリズム プロセスは大きく異なるため、これらを直接組み合わせることが困難であり、また、2 つの手法の出力を直接統合する戦略を設計することも困難です。そこで研究者らは、ロボットの状態に応じて2種類の方法で能動的な探索と物体の探索を交互に実行し、それぞれの利点を最大化するシンプルかつ効果的な戦略を設計した。
2. 競争方法
アルゴリズムは主に、確率マップベースの分岐とエンドツーエンド分岐の 2 つの分岐で構成されます。アルゴリズムの入力は、ファーストビューの RGB-D 画像とロボットのポーズ、および検索対象のオブジェクト カテゴリであり、出力は次のアクション (アクション) です。 RGB 画像は最初にセグメント化され、他の生の入力データとともに両方のブランチに渡されます。 2 つのブランチはそれぞれ独自のアクションを出力し、切り替え戦略によって最終的な出力アクションが決まります。
図 2 アルゴリズム フローの概略図
確率マップ ベースのブランチ
確率マップ ベースのブランチは、セマンティック リンク マップ[2]のアイデアに基づいており、 IROS Robot Conference[3]の手法が簡略化されました。このブランチは、入力インスタンスのセグメンテーション結果、深度マップ、およびロボットのポーズに基づいて 2D セマンティック マップを構築しますが、一方で、オブジェクト間の事前学習された関連付け確率に基づいて確率マップを更新します。
確率マップの更新方法には、次のような方法があります。ターゲット オブジェクトが検出されたものの、十分な確信が持てない場合 (信頼スコアがしきい値より低い場合)、この時点ではさらに近づいて観察を続ける必要があるため、対応するエリアは確率マップ上の確率値は増加する必要があります (図 3 の上部に示すように)。同様に、ターゲット オブジェクトに関連するオブジェクトが検出された場合 (たとえば、テーブルと椅子が一緒に配置されている確率が比較的高い)、対応する領域の確率値も増加します (以下の図 3 を参照)。最も確率の高い領域をターゲット ポイントとして選択することで、アルゴリズムは、ロボットがしきい値よりも高い信頼確率でターゲット オブジェクトを見つけるまで、さらなる観察のために潜在的なターゲット オブジェクトおよび関連オブジェクトに近づくことを奨励します。
#図 3 確率マップ更新方法の概略図
エンドツーエンド分岐
エンドツーエンド ブランチの入力には、RGB-D 画像、インスタンス セグメンテーション結果、ロボットのポーズ、ターゲット オブジェクト カテゴリが含まれ、アクションは直接出力されます。エンドツーエンド ブランチの主な機能は、ロボットが人間のような物体を見つけられるようにガイドすることであるため、Habitat-Web[4] メソッドのモデルとトレーニング プロセスが採用されています。この方法は模倣学習に基づいており、トレーニング セット内のオブジェクトを探している人間の例を収集することによってネットワークがトレーニングされます。スイッチング戦略
スイッチング戦略は主に確率マップとパス計画の結果に基づいており、確率マップ分岐によって出力される 2 つのアクションのうち 1 つを選択し、最終出力としてのエンドツーエンド ブランチ。確率マップにしきい値を超える確率を持つラスターがない場合、ロボットは環境を探索する必要があります。マップ上で実行可能な経路を計画できない場合、ロボットは特殊な環境 (階段など) にいる可能性があります。どちらの場合もエンドツーエンド方式が使用され、エンドツーエンドの分岐によりロボットは十分な環境適応性を得ることができます。他の場合には、ターゲット オブジェクトを見つける際の利点を最大限に活用するために、確率マップ ブランチが選択されます。 この切り替え戦略の効果はビデオで示されています。ロボットは通常、環境を効率的に探索するためにエンドツーエンド ブランチを使用します。ターゲット オブジェクトまたは関連オブジェクトの可能性が見つかると、詳細な観察のための確率マップ分岐。ターゲット オブジェクトの信頼確率がしきい値より大きい場合、ターゲット オブジェクトで停止します。そうでない場合は、より高い確率を持つグリッドがなくなるまで、エリア内の確率値は減少し続けます。しきい値を超えると、ロボットはエンドツーエンドに切り替えて探索を続行します。 ビデオからわかるように、この方法は、エンドツーエンドのアプローチとマップベースのアプローチの両方の利点を組み合わせています。 2 つのブランチはそれぞれ独自の役割を果たし、エンドツーエンド手法は主に環境の探索を担当し、確率マップ ブランチは関心領域の近くの観察を担当します。したがって、この方法では、複雑なシーン (階段など) を探索できるだけでなく、エンドツーエンド ブランチのトレーニング要件も軽減できます。 3. 概要オブジェクト アクティブ ターゲット ナビゲーション タスクに関して、ByteDance AI Lab-Research チームは、古典的な確率マップと最新の模倣学習を組み合わせたフレームワークを提案しました。このフレームワークは、従来の手法とエンドツーエンドのアプローチを組み合わせるという成功した試みです。 Habitat コンテストでは、ByteDance AI Lab-Research チームが提案した手法が 2 位や他の参加チームの結果を大幅に上回り、アルゴリズムの進歩を証明しました。現在主流のEmbedded AIのエンドツーエンド手法に従来の手法を導入することで、エンドツーエンド手法のいくつかの欠点をさらに補うことができ、それによってインテリジェントロボットが人々を助け、奉仕する道をさらに前進させることができます。 最近、ロボット工学分野における ByteDance AI Lab-Research チームの研究は、CoRL、IROS、ICRA などの主要なロボット工学カンファレンスにも参加しています。これには、オブジェクトの姿勢推定、オブジェクトの掴み、ターゲット ナビゲーション、自動制御などが含まれます。組み立て、人間とコンピューターの対話、およびロボットのその他の中心的なタスク。 【CoRL 2022】セマンティックプリミティブを使用した生成カテゴリレベルの形状と姿勢の推定- 論文アドレス: https://arxiv.org/abs/2210.01112
- 論文アドレス: https://arxiv.org/abs/2207.01779
- 論文アドレス: https://arxiv.org/abs/2202.03735
[EMNLP 2022] 参照式の生成と理解の統合に向けて
- 論文アドレス: https://arxiv.org/pdf/2210.13076
[ICRA 2022] 優先メモリ リセットによるさまざまなサイズの材料を使用した設計と構築の学習
- 論文アドレス:https://arxiv.org/abs/2204.05509
【IROS 2021】6-DoF 把握ポーズ推定のためのセマンティック学習と衝突学習の同時学習
- 論文アドレス:https ://arxiv.org/abs/2108.02425
[IROS 2021] ブループリントを使用しない橋の設計と建設の学習
- 論文アドレス: https://arxiv.org /abs/2108.02439
4. 参考文献
[1] Yadav、Karmesh、他「Habitat-Matterport 3D Semantics Dataset」arXiv プレプリント arXiv:2210.05633 (2022) 。
[2] Zeng、Zhen、Adrian Röfer、Odest Chadwicke Jenkins「アクティブなビジュアル オブジェクト検索のためのセマンティック リンク マップ」2020 IEEE International Conference on Robotics and Automation (ICRA). IEEE、2020.
[3] Minzhao Zhu、Binglei Zhao、Tao Kong「距離予測による目に見えない環境のオブジェクトへの移動」 arXiv プレプリント arXiv:2202.03735 (2022).
[4] Ramrakhya、Ram、他「Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstration at Scale」、コンピュータ ビジョンとパターン認識に関する IEEE/CVF 会議議事録、2022.
5. 私たちについて
Bytedance AI Lab NLP&Research は、人工知能分野の最先端技術研究に焦点を当てており、自然言語処理やロボット工学などの複数の技術研究分野をカバーしており、研究成果を社会に還元することにも尽力しています。同社の既存の製品とビジネスは、中核となる技術サポートとサービスを提供します。チームの技術力は Volcano Engine を通じて外部に公開され、AI イノベーションを促進します。
Bytedance AI-Lab NLP&Research 連絡先情報
- 採用相談: fankaijing@bytedance.com
- 学術協力: luomanping@bytedance.com
以上がByte AI Lab のコア テクノロジーは、従来の手法と模倣学習を組み合わせた Habitat Challenge 2022 アクティブ ナビゲーション チャンピオンシップで優勝しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









人型ロボット「アメカ」が第二世代にバージョンアップ!最近、世界移動通信会議 MWC2024 に、世界最先端のロボット Ameca が再び登場しました。会場周辺ではアメカに多くの観客が集まった。 GPT-4 の恩恵により、Ameca はさまざまな問題にリアルタイムで対応できます。 「ダンスをしましょう。」感情があるかどうか尋ねると、アメカさんは非常に本物そっくりの一連の表情で答えました。ほんの数日前、Ameca を支援する英国のロボット企業である EngineeredArts は、チームの最新の開発結果をデモンストレーションしたばかりです。ビデオでは、ロボット Ameca は視覚機能を備えており、部屋全体と特定のオブジェクトを見て説明することができます。最も驚くべきことは、彼女は次のこともできるということです。

Machine Power Report 編集者: Wu Xin 国内版の人型ロボット + 大型模型チームは、衣服を折りたたむなどの複雑で柔軟な素材の操作タスクを初めて完了しました。 OpenAIのマルチモーダル大規模モデルを統合したFigure01の公開により、国内同業者の関連動向が注目を集めている。つい昨日、中国の「ヒューマノイドロボットのナンバーワン株」であるUBTECHは、Baidu Wenxinの大型モデルと深く統合されたヒューマノイドロボットWalkerSの最初のデモを公開し、いくつかの興味深い新機能を示した。 Baidu Wenxin の大規模モデル機能の恩恵を受けた WalkerS は次のようになります。 Figure01 と同様に、WalkerS は動き回るのではなく、机の後ろに立って一連のタスクを完了します。人間の命令に従って服をたたむことができる

産業オートメーション技術の分野では、人工知能 (AI) と Nvidia という無視できない 2 つの最近のホットスポットがあります。元のコンテンツの意味を変更したり、コンテンツを微調整したり、コンテンツを書き換えたり、続行しないでください。「それだけでなく、Nvidia はオリジナルのグラフィックス プロセッシング ユニット (GPU) に限定されていないため、この 2 つは密接に関連しています。」このテクノロジーはデジタル ツインの分野にまで広がり、新たな AI テクノロジーと密接に関係しています。「最近、NVIDIA は、Aveva、Rockwell Automation、Siemens などの大手産業オートメーション企業を含む多くの産業企業と提携に至りました。シュナイダーエレクトリック、Teradyne Robotics とその MiR および Universal Robots 企業も含まれます。最近、Nvidiahascoll

今週、OpenAI、Microsoft、Bezos、Nvidiaが投資するロボット企業FigureAIは、7億ドル近くの資金調達を受け、来年中に自立歩行できる人型ロボットを開発する計画であると発表した。そしてテスラのオプティマスプライムには繰り返し良い知らせが届いている。今年が人型ロボットが爆発的に普及する年になることを疑う人はいないだろう。カナダに拠点を置くロボット企業 SanctuaryAI は、最近新しい人型ロボット Phoenix をリリースしました。当局者らは、多くのタスクを人間と同じ速度で自律的に完了できると主張している。人間のスピードでタスクを自律的に完了できる世界初のロボットである Pheonix は、各オブジェクトを優しくつかみ、動かし、左右にエレガントに配置することができます。自律的に物体を識別できる

以下の 10 種類の人型ロボットが私たちの未来を形作ります。 1. ASIMO: ホンダが開発した ASIMO は、最もよく知られている人型ロボットの 1 つです。身長 4 フィート、体重 119 ポンドの ASIMO には、高度なセンサーと人工知能機能が装備されており、複雑な環境をナビゲートし、人間と対話することができます。 ASIMO は多用途性を備えているため、障害を持つ人々の支援からイベントでのプレゼンテーションまで、さまざまなタスクに適しています。 2. Pepper: ソフトバンクロボティクスによって作成された Pepper は、人間の社会的パートナーになることを目指しています。表情豊かな顔と感情を認識する能力を備えた Pepper は、会話に参加したり、小売現場で手助けしたり、教育サポートを提供したりすることもできます。コショウ

掃除ロボットやモップ拭きロボットは、近年消費者の間で最も人気のあるスマート家電製品の 1 つです。操作の利便性、あるいは操作の必要がないことで、怠け者は手を解放し、消費者は日常の家事から「解放」され、好きなことにもっと時間を費やすことができるようになり、生活の質が向上します。この流行に乗って、市場に出回っているほぼすべての家電ブランドが独自の掃除ロボットや拭き掃除ロボットを製造しており、掃除ロボット市場全体が非常に活発になっています。しかし、市場の急速な拡大は必然的に隠れた危険をもたらします。多くのメーカーがより多くの市場シェアを急速に占有するために機械の海戦術を使用し、その結果、アップグレードポイントのない多くの新製品が生まれるとも言われています。まさに「マトリョーシカ」モデルです。ただし、すべての掃除ロボットやモップロボットがそうであるわけではありません。

瞬く間に、ロボットは魔法を使えるようになったのでしょうか?最初にテーブルの上の水スプーンを取り上げ、中には何も入っていないことを観客に証明したのが見られました。次に、卵のような物体を手に置き、水スプーンをテーブルに戻し、が「呪文を唱え」始めました… …再び水スプーンを拾ったそのとき、奇跡が起こりました。元々入っていた卵が消えて、飛び出してきたのがバスケットボールに… もう一度連続動作を見てみましょう: △ このアニメーションは一連の動作を2倍速で表示しており、スムーズに流れています。ビデオを 0.5 倍速で繰り返し再生すると、うまくいくでしょうか? 最後に、手の速度がもっと速ければ、敵から隠すことができるかもしれないという手がかりを発見しました。一部のネチズンは、ロボットの魔法のスキルが自分たちのものよりもさらに高いと嘆いていました。マグは私たちのためにこの魔法を実行してくれたのです。

「ゼルダの伝説 涙の王国」は、任天堂ゲーム史上最速で売れたゲームとなりました。Zonav Technology は、さまざまな「ゼルダ クリエイター」コミュニティ コンテンツをもたらしただけでなく、米国の大学の新しい工学コースにもなりました。メリーランド州(UMD)。 Rewrite: The Legend of Zelda: Tears of the Kingdom は、任天堂の史上最速で売れたゲームの 1 つです。 Zonav Technology は、豊富なコミュニティ コンテンツをもたらすだけでなく、メリーランド大学の新しいエンジニアリング コースの一部にもなりました。この秋、メリーランド大学のライアン D. ソチョル准教授は、「」と呼ばれるコースを開設しました。
