基本モデルとロボット開発の道筋を明らかにするレビュー
ロボットは、本来の意味を変えることなく、特にスマートテクノロジーと組み合わせることで無限の可能性を秘めたテクノロジーです。最近、革新的なアプリケーションを備えたいくつかの大規模モデルが、ロボットのインテリジェント ハブとなり、ロボットが世界を認識して理解し、意思決定を行い、計画を立てるのを支援すると期待されています。
最近、CMU の Yonatan Bisk 氏は、 Fei Xia 氏率いる共同チームは、ロボット工学分野における基本モデルの応用と開発を紹介するレビュー レポートを発表しました。このレポートの最初の著者は、ロボット工学と人工知能の交差点に焦点を当てて研究を行っている CMU 博士課程 4 年生の Yafei Hu です。彼と協力しているのは、基本モデルを通じて身体化されたインテリジェンスの探索に焦点を当てているクアンティング・シーです。
論文アドレス: https://arxiv.org/pdf/2312.08782.pdf
開発さまざまな環境に自律的に適応できるロボットは常に人類の夢でしたが、これは長く困難な道のりです。以前は、従来の深層学習手法を使用したロボット認識システムでは、通常、教師あり学習モデルをトレーニングするために大量のラベル付きデータが必要であり、クラウドソーシングを通じて大規模なデータセットにラベルを付けるコストは非常に高かった。
さらに、従来の教師あり学習手法の一般化能力には限界があるため、これらのモデルを特定のシナリオやタスクに展開するには、通常、これらのトレーニング済みモデルには慎重に設計されたドメイン適応が必要です。そのため、多くの場合、さらなるデータ収集と注釈の手順が必要になります。同様に、古典的なロボットの計画と制御のアプローチでは、多くの場合、世界、エージェント自身のダイナミクス、および/または他のエージェントのダイナミクスを注意深くモデリングする必要があります。これらのモデルは通常、特定の環境やタスクごとに構築され、条件が変化した場合にはモデルを再構築する必要があります。これは、クラシック モデルの移行パフォーマンスにも限界があることを示しています。
実際、多くのユースケースでは、効果的なモデルを構築するのは費用がかかりすぎるか、まったく不可能です。深層(強化)学習ベースの動作計画および制御方法はこれらの問題の軽減に役立ちますが、依然として分布の変化と汎化能力の低下に悩まされています。
汎用ロボット システムの開発には多くの課題がありますが、自然言語処理 (NLP) とコンピューター ビジョン (CV) の分野は、NLP 大規模な開発を含め、最近急速に進歩しています。言語モデル (LLM)、高忠実度の画像生成のための拡散モデル、強力なビジュアル モデル、およびゼロショット/少数ショット生成などの CV タスクのためのビジュアル言語モデル。
いわゆる「基礎モデル」は、実際には大規模な事前トレーニング モデル (LPTM) です。彼らは強力な視覚能力と言語能力を持っています。最近、これらのモデルはロボット工学の分野にも適用されており、ロボット システムにオープンワールドの認識、タスク計画、さらには動作制御機能を与えることが期待されています。ロボット工学の分野で既存の視覚および/または言語の基本モデルを使用することに加えて、一部の研究チームは、操作のための動作モデルやナビゲーションのための動作計画モデルなど、ロボットタスクの基本モデルを開発しています。これらの基本的なロボット モデルは、強力な汎用化機能を示し、さまざまなタスクや特定のソリューションにさえ適応できます。ロボットタスクに視覚/言語基本モデルを直接使用する研究者もおり、これはさまざまなロボットモジュールを単一の統一モデルに統合する可能性を示しています。
ロボット分野では視覚と言語の基本モデルが有望視されており、新たなロボット基本モデルも開発されているが、ロボット分野では依然として難しい課題が多い。解決するために。
実際の展開の観点から見ると、モデルは多くの場合、再現不可能であったり、さまざまなロボット形式に一般化できなかったり (複数の身体を備えた一般化)、環境内のどの動作が実行可能であるかを正確に理解することが困難であったりします (または許容されます)。さらに、ほとんどの研究では Transformer ベースのアーキテクチャが使用されており、オブジェクトとシーンの意味論的な認識、タスク レベルの計画、および制御に重点が置かれています。世界力学の基本モデルや記号推論を実行できる基本モデルなど、ロボット システムの他の部分はあまり研究されていません。これらには、クロスドメインの汎化機能が必要です。
最後に、より大規模な実世界のデータと、さまざまなロボット タスクをサポートする忠実度の高いシミュレーターも必要です。
このレビュー ペーパーは、ロボット工学の分野で使用される基本モデルを要約しており、基本モデルがロボット工学分野の中核的な課題の解決または軽減にどのように役立つかを理解することを目的としています。
このレビューでは、研究者が使用する「基礎モデル」という用語には、ロボティクス分野の 2 つの側面が含まれます: (1) 主にゼロショット学習とコンテキスト学習を通じて達成される、既存の主要な視覚モデルと言語モデル。 2) ロボット生成データを使用して、ロボットのタスクを解決するための基本モデルを具体的に開発および適用します。研究者らは、関連論文の基本モデルの手法を要約し、これらの論文の実験結果のメタ分析を実施しました。
##レビューの全体構成
読者を助けるために理解を深める このレビューの内容について、チームはまず準備知識のセクションを提供します
最初にロボット工学の基礎知識と現在の最高のテクノロジーを紹介します。ここでは、基本モデルの時代以前にロボット工学の分野で使用されていた手法に主に焦点を当てます。ここでは簡単に説明しますが、詳細については元の論文を参照してください。
#ロボットの主なコンポーネントは、知覚、意思決定と計画、行動生成の 3 つの部分に分けることができます。
チームはロボットの知覚を受動的知覚、能動的知覚、状態推定に分類しています。
- #ロボットの意思決定と計画のセクションでは、研究者は古典的な計画手法と学習ベースの計画手法を紹介しました。 機械動作生成には、古典的な制御手法と学習ベースの制御手法もあります。
- 次に、チームは基本モデルを紹介し、主に NLP と CV の分野に焦点を当てます。関連するモデルには、LLM、VLM、ビジュアル 基本モデル、テキスト条件付き画像が含まれます。モデルを生成します。
- ロボット工学分野が直面する課題
典型的なロボット システムのさまざまなモジュールが直面する 5 つの主要な課題。図 3 は、これら 5 つの課題の分類を示しています。
#一般化
データ不足
信頼性の高いロボット モデルを開発するには、大規模で高品質のデータが不可欠です。自動運転やロボットの動作軌跡など、実世界から大規模なデータセットを収集する取り組みはすでに始まっています。そして、人間のデモンストレーションからロボットのデータを収集するには費用がかかります。ただし、現実世界で十分かつ広範なデータを収集するプロセスは、タスクや環境の多様性によってさらに複雑になります。現実世界でのデータ収集にはセキュリティ上の懸念もあります。さらに、現実世界では大規模なデータを収集することは非常に困難であり、基本モデルのトレーニングに使用されるインターネット規模の画像/テキスト データを収集することはさらに困難です。
これらの課題に対処するために、多くの研究努力がシミュレートされた環境で合成データを生成することを試みてきました。これらのシミュレートされた環境は、非常に現実的な仮想世界を提供し、ロボットが現実のシナリオに近い状況でスキルを学習して適用できるようにします。ただし、シミュレートされた環境の使用にはいくつかの制限があり、特にオブジェクトの多様性の点で、学習したスキルを現実世界の状況に直接適用することが困難になります。
有望な方法は次のとおりです。共同データ収集。図 4a に示すように、さまざまな実験室環境およびロボット タイプからデータをまとめて収集します。しかし、チームは Open-X 実施形態データセットを詳しく調べたところ、利用可能なデータ タイプの点でいくつかの制限があることを発見しました。
#モデルと基本的な要件
従来の計画と制御方法では、通常、慎重に設計された環境とロボット モデルが必要です。これまでの学習ベースの手法 (模倣学習や強化学習など) では、エンドツーエンドの方法でポリシーをトレーニングしていました。つまり、感覚入力に基づいて直接制御出力を取得していたので、モデルを構築して使用する必要がありませんでした。これらの方法は、明示的モデルに依存する問題を部分的に解決できますが、多くの場合、さまざまな環境やタスクに一般化することが困難です。
解決する必要がある問題が 2 つあります: (1) モデルに依存せず、適切に一般化できる戦略をどのように学習するか? (2) 古典的なモデルベースの手法を適用するために優れた世界モデルを学習するにはどうすればよいですか?
タスク仕様
汎用エージェントを実現するには、タスク仕様とタスク仕様を理解することが重要な課題です。それを「ロボットの現在の世界理解に根ざしている」に翻訳します。通常、これらのタスク仕様はユーザーによって提供されますが、ユーザーはロボットの認知能力と身体能力の限界について限られた理解しか持っていません。これにより、これらのタスク仕様に対してどのようなベスト プラクティスを提供できるか、また、これらの仕様の草案作成が自然で十分に単純であるかどうかなど、多くの疑問が生じます。また、ロボットの能力の理解に基づいてタスク仕様のあいまいさを理解し、解決することも困難です。
不確実性と安全性
ロボットを現実世界に導入するには、次のような重要な課題に対処する必要があります。環境とタスクの仕様に固有の不確実性。不確実性は、情報源に応じて、認識的不確実性(知識の欠如によって引き起こされる不確実性)と偶発的不確実性(環境に固有のノイズ)に分類できます。
不確実性定量化 (UQ) のコストが高すぎるため、研究や応用が持続不可能になる可能性があり、また、下流のタスクを最適に解決できなくなる可能性もあります。基礎となるモデルが大幅にパラメータ化されすぎる性質があることを考慮すると、モデルの汎化パフォーマンスを犠牲にすることなくスケーラビリティを実現するには、基礎となるアーキテクチャの変更を最小限に抑えながらトレーニング スキームを保持する UQ メソッドを提供することが重要です。自身の行動の信頼性の高い推定値を提供し、明確に述べられたフィードバックをインテリジェントに要求できるロボットを設計することは、依然として未解決の課題です。
最近の進歩にもかかわらず、ロボットが経験から学習して戦略を微調整し、新しい環境で安全を保つ能力を確保することは依然として課題です。
現在の研究方法の概要
この記事では、ロボットのベースモデルに関する現在の研究方法についてもまとめています。研究チームは、ロボット工学の分野で使用される基本モデルを、ロボットの基本モデルと書き換えられたコンテンツであるロボット基本モデル (RFM) の 2 つのカテゴリに分類しました。
ロボットの基本モデルとは、追加の微調整やトレーニングを行わずに、ゼロサンプル方式でロボットの視覚および言語の基本モデルを使用することを指します。基本的なロボット モデルは、ビジュアル言語の事前トレーニング初期化を通じてウォーム スタートすることも、モデルをロボット データ セットで直接トレーニングすることもできます
詳細な分類
ロボットの基本モデル
このコンテンツは次のように書き換えられます。ロボットの分野で視覚と言語の基本モデルをゼロショット状況に適用します。その中には主に、VLM ゼロサンプルをロボット認識アプリケーションに導入すること、LLM のコンテキスト学習機能をタスクレベルおよびモーションレベルの計画とアクション生成に適用することが含まれます。図 6 は、いくつかの典型的な研究成果を示しています
#書き直された内容は次のとおりです: ロボット基本モデル (RFM)
実際のロボットからの状態と動作のペアを含むロボット工学データセットが成長するにつれて、書き換えられるのは次のとおりです: ロボット ベース モデル (RFM) カテゴリの成功もますます高まっていますおそらく。これらのモデルは、ロボット データを使用してロボット タスクを解決するモデルをトレーニングすることを特徴としています。
研究チームは、議論の中でさまざまな種類の RFM を要約しました。 1 つ目は、単一のロボット モジュールで特定のタスクを実行できる RFM で、単一目的ロボットの基本モデルとも呼ばれます。たとえば、ロボットやモデルの低レベルの動作を制御する RFM を生成して、高レベルの動作計画を生成できる機能です。この記事では、複数のロボット モジュールでタスクを実行できる RFM、つまり、認識、制御、さらにはロボット以外のタスクも実行できるユニバーサル モデルについても紹介します。基本モデルはロボットの問題を解決するために使用されます。チャレンジの側面はどのような役割を果たしますか?
前回の記事では、ロボット工学の分野が直面する 5 つの主要な課題をリストしました。ここでは、基本モデルがこれらの課題への対処にどのように役立つかを説明します。
視覚情報に関連するすべての基本モデル (VFM、VLM、VGM など) はロボットの認識モジュールで使用できます。一方、LLM はより多用途であり、計画と制御に使用できます。書き換えられた内容は次のとおりです。 ロボット基本モデル (RFM) は、通常、計画およびアクション生成モジュールで使用されます。表 1 は、ロボット工学のさまざまな課題を解決するための基礎となるモデルをまとめたものです。
#表からわかるように、すべての基本モデルは、さまざまなロボット モジュールのタスクを適切に一般化できます。特に、LLM はタスク仕様において優れたパフォーマンスを発揮します。一方、RFM は、ほとんどの RFM がモデルフリーの手法であるため、動的モデルの課題に対処するのが得意です。ロボットの認識能力の場合、一般化能力とモデルの課題は相互に関連しています。認識モデルがすでに優れた一般化機能を備えている場合、ドメイン適応や追加の微調整のためにさらにデータを取得する必要はありません
現在の実験と評価の概要
このセクションでは、データセット、ベンチマーク、実験に関する現在の研究結果を要約します。
データセットとベンチマーク
言語と視覚のデータセットから学んだ知識だけに依存することには限界があります。いくつかの研究結果が示すように、摩擦や重量などの一部の概念は、これらのモダリティだけでは簡単に学習できません。
したがって、ロボットエージェントが世界をよりよく理解できるようにするために、研究コミュニティは言語と視覚の領域からの基本モデルを適応させるだけでなく、トレーニングと視覚の開発も進めています。大規模で多様なマルチモーダル ロボット データセット。現在、これらの取り組みは 2 つの主な方向に分けることができます。1 つは現実世界からデータを収集し、もう 1 つはシミュレートされた世界からデータを収集して移行することです。現実世界へ。各方向には長所と短所があります。現実世界から収集されたデータセットには、RoboNet、Bridge Dataset V1、Bridge-V2、Language-Table、RT-1 などが含まれます。一般的に使用されるシミュレーターには、Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym などが含まれます。
#現在の手法のメタ分析
このチームのもう 1 つの主な貢献は、このレビュー レポートで言及されている論文の実験のメタ分析であり、これは次の問題を明確にするのに役立ちます:
1 . 人々はどのようなタスクに取り組んでいますか?2. モデルのトレーニングにはどのようなデータ セットまたはシミュレーターが使用されましたか?テストに使用されるロボット プラットフォームは何ですか?
3. 研究コミュニティではどのような基本モデルが使用されていますか?タスクを解決するのにどれくらい効果的ですか?
4. これらの方法の中で、どの基本モデルがより一般的に使用されますか?
#表 2-7 と図 11 に分析結果を示します。
メタ分析から得られたチームの主な観察の一部:
#ロボット操作タスク (マニピュレーション) に対する研究コミュニティの注目はバランスが取れていない
#一般化と堅牢性を改善する必要がある低レベルのアクション (低レベル制御) の探索は非常に制限されています
制御周波数が低すぎる (統一されたテスト ベンチマーク (メトリクス) とテスト プラットフォーム (シミュレーションまたはハードウェア) が欠如しているため、比較が非常に困難になります。
#議論と将来の方向性
チームは、まだ解決する必要があるいくつかの課題と、議論する価値のある研究の方向性をまとめました。
ロボットの具体化のための標準的な接地を設定するにはどうすればよいですか?
- 安全性と不確実性?
- エンドツーエンドのアプローチとモジュール型のアプローチには互換性がないのでしょうか?
- #具体化された身体的変化への適応
- 能力 #世界モデル(ワールドモデル) 方式か、モデルに依存しない方式か?
- 新しいロボット プラットフォームと多感覚情報
- 学び続ける
- 標準化と再現性 #
以上が基本モデルとロボット開発の道筋を明らかにするレビューの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

何?ズートピアは国産AIによって実現するのか?ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。

前に書かれたプロジェクトのリンク: https://nianticlabs.github.io/mickey/ 2 枚の写真が与えられた場合、それらの写真間の対応関係を確立することで、それらの間のカメラのポーズを推定できます。通常、これらの対応は 2D 対 2D であり、推定されたポーズはスケール不定です。いつでもどこでもインスタント拡張現実などの一部のアプリケーションでは、スケール メトリクスの姿勢推定が必要なため、スケールを回復するために外部深度推定器に依存します。この論文では、3D カメラ空間でのメトリックの対応を予測できるキーポイント マッチング プロセスである MicKey を提案します。画像全体の 3D 座標マッチングを学習することで、相対的なメトリックを推測できるようになります。
