目次
##従来の計画および制御方法では、通常、慎重に設計された環境およびロボット モデルが必要です。これまでの学習ベースの手法 (模倣学習や強化学習など) では、エンドツーエンドの方法でポリシーをトレーニングしていました。つまり、感覚入力に基づいて直接制御出力を取得していたので、モデルを構築して使用する必要がありませんでした。これらの方法は、明示的モデルに依存する問題を部分的に解決できますが、多くの場合、さまざまな環境やタスクに一般化することが困難です。
5. 不確実性と安全性
現在の研究方法の概要
1. の基本モデルロボット
現在の実験と評価の概要
1. データセットとベンチマーク
2. 現在の手法の評価分析
チームは、解決すべきいくつかの課題と研究の方向性をまとめました。議論する価値がある:
ホームページ テクノロジー周辺機器 AI ロボティクス: 基本モデルの進捗はどうですか?

ロボティクス: 基本モデルの進捗はどうですか?

Jan 09, 2024 am 11:58 AM

ロボットは、特にインテリジェント テクノロジーのサポートにより、無限の可能性を秘めたテクノロジーです。最近、革新的なアプリケーションを備えたいくつかの大規模モデルは、ロボットが世界を認識して理解し、意思決定や計画を立てるのに役立つ、ロボットの知的頭脳の可能性があると考えられています。最近、CMU の Yonatan Bisk 氏と Google DeepMind の Fei Xia 氏が率いる共同チームが、ロボット工学分野における基本モデルの応用と開発を紹介するレビュー レポートを発表しました。

#人類は、さまざまな環境に自律的に適応できるロボットの開発を常に夢見てきました。しかし、この夢の実現は長くて困難な道のりです。

これまで、ロボット認識システムでは通常、従来の深層学習手法が使用されており、教師あり学習モデルをトレーニングするには大量のラベル付きデータが必要でした。ただし、クラウドソーシングを通じて大規模なデータセットにラベルを付けるには、非常にコストがかかります。

ロボティクス: 基本モデルの進捗はどうですか?

さらに、従来の教師あり学習手法には汎化機能に一定の制限があります。これらのトレーニング済みモデルを特定のシナリオやタスクに適用するには、通常、ドメイン適応テクノロジの慎重な設計が必要であり、多くの場合、さらなるデータ収集と注釈が必要になります。同様に、従来のロボットの計画および制御方法でも、環境、エージェント自体、および他のエージェントのダイナミクスを正確にモデリングする必要があります。これらのモデルは特定の環境やタスク用に構築されることが多く、条件が変化するとモデルを再構築する必要があります。これは、古典的なモデルの伝達​​性能にも限界があることを示しています。

実際、多くのユースケースでは、効果的なモデルを構築するのは費用がかかりすぎるか、まったく不可能です。深層(強化)学習ベースの動作計画および制御方法はこれらの問題の軽減に役立ちますが、依然として分布の変化と汎化能力の低下に悩まされています。

汎用ロボット システムの開発には多くの課題がありますが、自然言語処理 (NLP) とコンピューター ビジョン (CV) の分野は、NLP 大規模な開発を含め、最近急速に進歩しています。言語モデル (LLM)、高忠実度の画像生成のための拡散モデル、強力なビジュアル モデル、およびゼロショット/少数ショット生成などの CV タスクのためのビジュアル言語モデル。

いわゆる「基礎モデル」は、実際には大規模な事前トレーニング モデル (LPTM) です。彼らは強力な視覚能力と言語能力を持っています。最近、これらのモデルはロボット工学の分野にも適用されており、ロボット システムにオープンワールドの認識、タスク計画、さらには動作制御機能を与えることが期待されています。ロボット工学の分野で既存の視覚および/または言語の基本モデルを使用することに加えて、一部の研究チームは、操作のための動作モデルやナビゲーションのための動作計画モデルなど、ロボットタスクの基本モデルを開発しています。これらの基本的なロボット モデルは、強力な汎用化機能を示し、さまざまなタスクや特定のソリューションにさえ適応できます。

ロボットタスクに視覚/言語基本モデルを直接使用する研究者もおり、これはさまざまなロボットモジュールを単一の統一モデルに統合する可能性を示しています。

ロボット分野では視覚と言語の基本モデルが有望視されており、新たなロボット基本モデルも開発されているが、ロボット分野では依然として難しい課題が多い。解決するために。

実際の展開の観点から見ると、モデルは多くの場合、再現不可能であったり、さまざまなロボット形式に一般化できなかったり (複数の身体を備えた一般化)、環境内のどの動作が実行可能であるかを正確に理解することが困難であったりします (または許容されます)。さらに、ほとんどの研究では Transformer ベースのアーキテクチャが使用されており、オブジェクトやシーンの意味論的な認識、タスク レベルの計画、および制御に重点が置かれています。世界力学の基本モデルや記号推論を実行できる基本モデルなど、ロボット システムの他の部分はあまり研究されていません。これらには、クロスドメインの汎化機能が必要です。

最後に、より大規模な実世界のデータと、さまざまなロボット タスクをサポートする忠実度の高いシミュレーターも必要です。

このレビュー ペーパーは、ロボット工学の分野で使用される基本モデルを要約しており、基本モデルがロボット工学分野の中核的な課題の解決または軽減にどのように役立つかを理解することを目的としています。

ロボティクス: 基本モデルの進捗はどうですか?

論文アドレス: https://arxiv.org/pdf/2312.08782.pdf

#このレビューでは、研究者によって使用される「ロボット工学の基礎モデル」という用語は、次の 2 つの側面をカバーしています: (1) ロボット工学の既存の (主要な) モデル 主にゼロショット学習とコンテキスト学習による、視覚および言語モデル。(2)ロボットが生成したデータを使用して、ロボットのタスクを解決するためのロボットの基本モデルを具体的に開発および利用します。彼らは、ロボットの基本モデルに使用された関連論文の手法を要約し、これらの論文の実験結果に対してメタ分析を実行しました。

ロボティクス: 基本モデルの進捗はどうですか?

図 1 は、このレビュー レポートの主なコンポーネントを示しています。

ロボティクス: 基本モデルの進捗はどうですか?

# 図 2 は、このレビューの全体的な構造を示しています。

予備知識

読者がこのレビューの内容をよりよく理解できるように、チームは最初に A を提供します。準備知識コンテンツのセクション。

彼らはまず、ロボット工学の基礎と現在の最高のテクノロジーを紹介します。ここでは、基本モデルの時代以前にロボット工学の分野で使用されていた手法に主に焦点を当てます。ここでは簡単に説明しますが、詳細については元の論文を参照してください。

    #ロボットの主なコンポーネントは、知覚、意思決定と計画、行動生成の 3 つの部分に分けることができます。
  • チームはロボットの知覚を受動的知覚、能動的知覚、状態推定に分けています。
  • ロボットの意思決定と計画のセクションでは、研究者らは古典的な計画手法と学習ベースの計画手法を紹介しました。
  • 機械動作生成には、古典的な制御手法と学習ベースの制御手法もあります。
  • 次に、チームは主に NLP と CV の分野に焦点を当て、LLM、VLM、ビジュアルベーシックモデル、テキスト条件付き画像生成モデルなどの基本モデルを紹介します。

ロボット工学の課題

このセクションでは、典型的なロボット システムのさまざまなモジュールが直面する 5 つの主要な課題を要約します。図 3 は、これら 5 つの課題の分類を示しています。

ロボティクス: 基本モデルの進捗はどうですか?

#1. 一般論

ロボット システムは、多くの場合、正確に感知し、その環境を理解すること。また、あるタスクのトレーニング結果を別のタスクに一般化する能力も欠如しているため、現実世界での有用性はさらに制限されます。さらに、ロボットのハードウェアが異なるため、モデルを異なる形式のロボットに転送することも困難です。一般化問題は、ロボットの基本モデルを使用することで部分的に解決できます。

さまざまなロボット形式への一般化というさらなる問題は、まだ答えられていません。

2. データ不足

信頼性の高いロボット モデルを開発するには、大規模で高品質なデータが不可欠です。自動化された値、ロボットの動作軌跡などを含む大規模なデータセットを現実世界から収集する取り組みがすでに始まっています。そして、人間のデモンストレーションからロボットのデータを収集するには費用がかかります。また、タスクや環境が多様であるため、現実世界で十分かつ広範なデータを収集するプロセスはさらに複雑になります。さらに、現実世界でのデータ収集にはセキュリティ上の懸念もあります。

これらの課題に対処するために、多くの研究努力がシミュレートされた環境で合成データを生成することを試みてきました。これらのシミュレーションは非常に現実的な仮想世界を提供し、ロボットがほぼ現実のシナリオでスキルを学習して使用できるようにします。ただし、シミュレートされた環境の使用には、特にさまざまなオブジェクトの点で制限があるため、学習したスキルを現実世界の状況に直接適用することが困難になります。

さらに、現実世界では大規模なデータを収集することは非常に困難であり、これまで使われてきたインターネット規模の画像/テキスト データを収集することはさらに困難です。基本モデルをトレーニングします。

有望なアプローチの 1 つは、図 4a に示すように、さまざまな実験室環境やロボットの種類からのデータをまとめる共同データ収集です。しかし、チームは Open-X 実施形態データセットを詳しく調べたところ、利用可能なデータ タイプの点でいくつかの制限があることを発見しました。

ロボティクス: 基本モデルの進捗はどうですか?

3. モデルと基本的な要件

##従来の計画および制御方法では、通常、慎重に設計された環境およびロボット モデルが必要です。これまでの学習ベースの手法 (模倣学習や強化学習など) では、エンドツーエンドの方法でポリシーをトレーニングしていました。つまり、感覚入力に基づいて直接制御出力を取得していたので、モデルを構築して使用する必要がありませんでした。これらの方法は、明示的モデルに依存する問題を部分的に解決できますが、多くの場合、さまざまな環境やタスクに一般化することが困難です。

これにより、2 つの質問が生じます: (1) 適切に一般化できるモデルに依存しないポリシーを学習するにはどうすればよいですか? (2) 古典的なモデルベースの手法を適用できるように、適切な世界モデルを学習するにはどうすればよいでしょうか?

4. タスクの仕様

汎用エージェントを実現するための重要な課題は、タスクの仕様を理解し、それをロボットの現在の世界理解に基づいて行うことです。通常、これらのタスク仕様はユーザーによって提供されますが、ユーザーはロボットの認知能力と身体能力の限界について限られた理解しか持っていません。これにより、これらのタスク仕様にどのようなベスト プラクティスが提供できるかだけでなく、これらの仕様の草案が自然で十分に単純であるかどうかなど、多くの疑問が生じます。また、ロボットの能力の理解に基づいてタスク仕様のあいまいさを理解し、解決することも困難です。

5. 不確実性と安全性

ロボットを現実世界に導入する場合の重要な課題は、環境とタスクの仕様に対処することです。本質的な不確実性。不確実性は、情報源に応じて、認識的不確実性(知識の欠如によって引き起こされる不確実性)と偶発的不確実性(環境に固有のノイズ)に分類できます。

不確実性定量化 (UQ) のコストが高すぎるため、研究や応用が持続不可能になる可能性があり、また、下流のタスクを最適に解決できなくなる可能性もあります。基礎となるモデルが大幅にパラメータ化されすぎる性質があることを考慮すると、モデルの汎化パフォーマンスを犠牲にすることなくスケーラビリティを実現するには、基礎となるアーキテクチャの変更を最小限に抑えながらトレーニング スキームを保持する UQ メソッドを提供することが重要です。自身の行動の信頼性の高い推定値を提供し、明確に述べられたフィードバックをインテリジェントに要求できるロボットを設計することは、依然として未解決の課題です。

最近の進歩にもかかわらず、ロボットが経験から学習して戦略を微調整し、新しい環境で安全を保つ能力を確保することは依然として課題です。

現在の研究方法の概要

このセクションでは、ロボットのベースモデルに関する現在の研究方法を要約します。研究チームは、ロボット工学の分野で使用される基本モデルを、ロボット用基本モデルとロボット基本モデル (RFM) の 2 つの主要なカテゴリに分類しました。

ロボットに使用される基本モデルとは、主にロボットの視覚および言語の基本モデルをゼロサンプル方式で使用することを指します。これは、追加の微調整やトレーニングが必要ないことを意味します。ロボット ベース モデルは、ビジョン言語の事前トレーニング初期化を使用してウォーム スタートしたり、ロボット データセット上でモデルを直接トレーニングしたりできます。

ロボティクス: 基本モデルの進捗はどうですか?

#図 5 に分類の詳細を示します

1. の基本モデルロボット

このセクションでは、ロボット工学の分野における基本的な視覚モデルと言語モデルのゼロサンプル アプリケーションに焦点を当てます。これには主に、LLM のコンテキスト学習機能を使用して、タスク レベルおよびモーション レベルの計画とアクション生成に VLM をゼロショット方式でロボット認識アプリケーションに導入することが含まれます。図 6 は、いくつかの代表的な研究成果を示しています。

ロボティクス: 基本モデルの進捗はどうですか?

2. ロボット基本モデル (RFM)

ロボティクス: 基本モデルの進捗はどうですか?

実際のロボットの状態と動作のペアを含むロボット データセットが成長するにつれて、ロボット基本モデル (RFM) カテゴリも成長し、成功率がさらに高まります。そしてもっと可能性が高い。これらのモデルは、ロボット データを使用してロボット タスクを解決するモデルをトレーニングすることを特徴としています。

このセクションでは、さまざまな種類の RFM について要約し、説明します。 1 つ目は、単一のロボット モジュールで特定のタスクを実行できる RFM であり、単一目的ロボット ベース モデルとも呼ばれます。たとえば、RFM は、ロボットを制御するための低レベルのアクションを生成したり、より高レベルの動作計画を生成できるモデルを生成したりできます。

複数のロボット モジュールでタスクを実行できる RFM は、後で紹介します。これは、認識、制御、さらには非ロボット タスクも実行できるユニバーサル モデルです。

3. 基本モデルはロボット工学の課題の解決にどのように役立ちますか?

ロボット工学分野が直面する 5 つの主要な課題は上にリストされています。このセクションでは、基本モデルがこれらの課題への対処にどのように役立つかについて説明します。

視覚情報に関連するすべての基本モデル (VFM、VLM、VGM など) はロボットの認識モジュールで使用できます。一方、LLM はより多用途であり、計画と制御に使用できます。ロボット基本モデル (RFM) は通常、計画およびアクション生成モジュールで使用されます。表 1 は、ロボット工学のさまざまな課題を解決するための基礎となるモデルをまとめたものです。

ロボティクス: 基本モデルの進捗はどうですか?

#

表からわかるように、すべての基本モデルは、さまざまなロボット モジュールのタスクを一般化するのに優れています。 LLM はタスクの指定に特に優れています。一方、RFM は、ほとんどの RFM がモデルフリーのアプローチであるため、動的モデルの課題に対処するのが得意です。ロボットの知覚の場合、一般化能力とモデルの課題は相互に結びついています。これは、知覚モデルがすでに優れた一般化能力を備えている場合、ドメイン適応や追加の微調整を実行するためにさらにデータを取得する必要がないためです。

さらに、将来の重要な研究方向となるセキュリティ上の課題に関する研究も不足しています。

現在の実験と評価の概要

このセクションでは、データセット、ベンチマーク、実験に関する現在の研究結果を要約します。

1. データセットとベンチマーク

言語および視覚データセットから学んだ知識のみに依存することには限界があります。いくつかの研究結果が示すように、摩擦や重量などの一部の概念は、これらのモダリティだけでは簡単に学習できません。

したがって、ロボットエージェントが世界をよりよく理解できるようにするために、研究コミュニティは言語と視覚の領域からの基本モデルを適応させるだけでなく、トレーニングと視覚の開発も進めています。大規模で多様なマルチモーダル ロボット データセット。

現在、これらの取り組みは、現実世界からデータを収集することと、シミュレートされた世界からデータを収集して現実世界に移行することの 2 つの大きな方向に分かれています。それぞれの方向に長所と短所があります。現実世界から収集されたデータセットには、RoboNet、Bridge Dataset V1、Bridge-V2、Language-Table、RT-1 などが含まれます。一般的に使用されるシミュレーターには、Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym などがあります。

2. 現在の手法の評価分析

このチームのもう 1 つの大きな貢献は、このレビュー レポートで言及されている論文に対するものです。 -分析は、著者が次の質問を明確にするのに役立ちました:

  • 人々はどのようなタスクを解決するために研究していましたか?
  • モデルのトレーニングにはどのようなデータ セットまたはシミュレーターが使用されましたか?テストに使用されるロボット プラットフォームは何ですか?
  • 研究コミュニティではどのような基本モデルが使用されていますか?タスクを解決するのにどれくらい効果的ですか?
  • これらの方法の中で、どの基本モデルがより一般的に使用されますか?

表 2-7 と図 11 に分析結果を示します。

ロボティクス: 基本モデルの進捗はどうですか?

ロボティクス: 基本モデルの進捗はどうですか?

ロボティクス: 基本モデルの進捗はどうですか?

ロボティクス: 基本モデルの進捗はどうですか?

ロボティクス: 基本モデルの進捗はどうですか?

ロボティクス: 基本モデルの進捗はどうですか?

ロボティクス: 基本モデルの進捗はどうですか?

チームはいくつかの重要な傾向を特定しました:

研究コミュニティ ロボット操作タスクに対する注意の偏り
  • 一般化能力と堅牢性を改善する必要がある
  • ##低レベルのアクションの探索は非常に限られている
  • ##実際に展開するには制御頻度が低すぎる
  • ロボットにおける統合テストベンチマークの欠如
  • ディスカッションと今後の方向性

チームは、解決すべきいくつかの課題と研究の方向性をまとめました。議論する価値がある:

ロボットの具体化のための標準的な根拠の設定

安全性と不確実性
  • エンドツーエンドのアプローチとモジュラーアプローチは互換性がありませんか?
  • 具体化された物理的変化への適応性
  • 世界モデルアプローチか、それともモデルに依存しないアプローチか?
  • 新しいロボットプラットフォームと多感覚情報
  • 継続的な学習
  • 標準化と再現性

以上がロボティクス: 基本モデルの進捗はどうですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

カーソルAIでバイブコーディングを試してみましたが、驚くべきことです! カーソルAIでバイブコーディングを試してみましたが、驚くべきことです! Mar 20, 2025 pm 03:34 PM

バイブコーディングは、無限のコード行の代わりに自然言語を使用してアプリケーションを作成できるようにすることにより、ソフトウェア開発の世界を再構築しています。 Andrej Karpathyのような先見の明に触発されて、この革新的なアプローチは開発を許可します

2025年2月のトップ5 Genai発売:GPT-4.5、Grok-3など! 2025年2月のトップ5 Genai発売:GPT-4.5、Grok-3など! Mar 22, 2025 am 10:58 AM

2025年2月は、生成AIにとってさらにゲームを変える月であり、最も期待されるモデルのアップグレードと画期的な新機能のいくつかをもたらしました。 Xai’s Grok 3とAnthropic's Claude 3.7 SonnetからOpenaiのGまで

オブジェクト検出にYolo V12を使用する方法は? オブジェクト検出にYolo V12を使用する方法は? Mar 22, 2025 am 11:07 AM

Yolo(あなたは一度だけ見ています)は、前のバージョンで各反復が改善され、主要なリアルタイムオブジェクト検出フレームワークでした。最新バージョンYolo V12は、精度を大幅に向上させる進歩を紹介します

クリエイティブプロジェクトのための最高のAIアートジェネレーター(無料&有料) クリエイティブプロジェクトのための最高のAIアートジェネレーター(無料&有料) Apr 02, 2025 pm 06:10 PM

この記事では、トップAIアートジェネレーターをレビューし、その機能、創造的なプロジェクトへの適合性、価値について説明します。 Midjourneyを専門家にとって最高の価値として強調し、高品質でカスタマイズ可能なアートにDall-E 2を推奨しています。

ChatGpt 4 oは利用できますか? ChatGpt 4 oは利用できますか? Mar 28, 2025 pm 05:29 PM

CHATGPT 4は現在利用可能で広く使用されており、CHATGPT 3.5のような前任者と比較して、コンテキストを理解し、一貫した応答を生成することに大幅な改善を示しています。将来の開発には、よりパーソナライズされたインターが含まれる場合があります

chatgptよりも優れたAIはどれですか? chatgptよりも優れたAIはどれですか? Mar 18, 2025 pm 06:05 PM

この記事では、Lamda、Llama、GrokのようなChatGptを超えるAIモデルについて説明し、正確性、理解、業界への影響における利点を強調しています(159文字)

次のラグモデルにミストラルOCRを使用する方法 次のラグモデルにミストラルOCRを使用する方法 Mar 21, 2025 am 11:11 AM

Mistral OCR:マルチモーダルドキュメントの理解により、検索された世代の革命を起こします 検索された生成(RAG)システムはAI機能を大幅に進めており、より多くの情報に基づいた応答のために膨大なデータストアにアクセスできるようになりました

トップAIライティングアシスタントは、コンテンツの作成を後押しします トップAIライティングアシスタントは、コンテンツの作成を後押しします Apr 02, 2025 pm 06:11 PM

この記事では、Grammarly、Jasper、Copy.ai、Writesonic、RytrなどのトップAIライティングアシスタントについて説明し、コンテンツ作成のためのユニークな機能に焦点を当てています。 JasperがSEOの最適化に優れているのに対し、AIツールはトーンの維持に役立つと主張します

See all articles