大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら-AI-php.cn

ホームページ

テクノロジー周辺機器

大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら

PHPz

Jan 12, 2024 am 08:33 AM

ロボット大型モデル業界

大型モデルの優れた性能は誰の目にも明らかであり、これらがロボットに統合されれば、ロボットの頭脳がより賢くなり、自動運転や家庭用ロボットなど、ロボティクス分野に新たな可能性をもたらすことが期待されます。、産業用ロボット、支援ロボット、医療用ロボット、フィールドロボット、マルチロボットシステム。

事前トレーニング済みの大規模言語モデル (LLM)、大規模視覚言語モデル (VLM)、大規模音声言語モデル (ALM)、および大規模ビジュアルナビゲーションモデル (VNM) を使用して、ロボットのさまざまなタスクをより適切に処理できます。現場で。基本モデルをロボット工学に統合することは急速に成長している分野であり、ロボット工学コミュニティは最近、認識、予測、計画、制御といった書き換えが必要なロボット工学分野でこれらの大規模モデルの使用を検討し始めています。

最近、スタンフォード大学、プリンストン大学、NVIDIA、Google DeepMind などの企業で構成される共同研究チームが、ロボット研究分野における基本モデルの開発と将来をまとめたレビューレポートを発表しました。

大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら

論文アドレス: https://arxiv.org/pdf/2312.07843.pdf
書き換えられた内容は次のとおりです。 : 論文ライブラリ: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

チームメンバーの中には、私たちがよく知っている中国人の学者がたくさんいます。朱裕克、宋淑蘭、呉嘉軍、陸哲武など。

基本モデルは大規模データを使用して広範囲に事前トレーニングされており、微調整後にさまざまな下流タスクに適用できます。これらの基本モデルは、BERT、GPT-3、GPT-4、CLIP、DALL-E、PaLM-Eなどの関連モデルを含め、視覚と言語処理の分野で大きな進歩を遂げました。基本モデル、ロボット工学向けの従来の深層学習モデルは、さまざまなタスク用に収集された限られたデータセットを使用してトレーニングされます。対照的に、基本モデルは広範囲にわたる多様なデータを使用して事前トレーニングされており、自然言語処理、コンピュータービジョン、ヘルスケアなどの他の分野での適応性、一般化、および全体的なパフォーマンスが実証されています。最終的には、この基本モデルはロボット工学の分野でもその可能性を発揮することが期待されています。図1にロボット分野における基本モデルの概要を示します。

基本モデルから知識を転送すると、タスク固有のモデルと比較してトレーニング時間とコンピューティングリソースを削減できる可能性があります。特にロボット関連の分野では、マルチモーダルベースモデルは、さまざまなセンサーから収集されたマルチモーダルな異種データを融合して整列させ、ロボットの理解と推論に必要なコンパクトな均質な表現にすることができます。学習した表現は、認識、意思決定、制御など、書き換えが必要なものを含め、自動化テクノロジースタックのあらゆる部分で使用できます。大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら

それだけでなく、基本モデルはゼロサンプル学習機能も提供できます。これは、AI システムがサンプルや対象を絞ったトレーニングなしでタスクを実行できることを意味します。これにより、ロボットは学習した知識を新しいユースケースに一般化することができ、非構造化環境におけるロボットの適応性と柔軟性が向上します。

基本モデルをロボットシステムに統合すると、ロボットの環境を認識し、環境とインタラクションする能力が向上し、書き換えが必要なコンテキスト、つまり知覚ロボットシステムを実現できます。

たとえば、書き換えが必要な知覚の分野では、大規模視覚言語モデル (VLM) が視覚データとテキストデータの関連性を学習して、クロスモーダルな理解機能を備えます。これにより、サンプル画像分類、ゼロサンプルターゲット検出、3D 分類などのゼロタスクを支援します。別の例として、3D 世界での言語の基礎付け (つまり、VLM の文脈上の理解を 3D 現実世界に合わせる) は、発話を 3D 環境内の特定のオブジェクト、場所、またはアクションと関連付けることによって、ロボットの空間的ニーズを強化できます。。

意思決定や計画の分野では、LLM と VLM が、高レベルの計画を伴うタスクの指定においてロボットを支援できることが研究でわかっています。

操作、ナビゲーション、インタラクションに関連する言語の手がかりを活用することで、ロボットはより複雑なタスクを実行できます。たとえば、模倣学習や強化学習などのロボットポリシー学習技術の場合、基本モデルにはデータ効率とコンテキスト理解を向上させる機能があるようです。特に、言語駆動型の報酬は、成形された報酬を提供することで強化学習エージェントを導くことができます。

さらに、研究者たちはすでに言語モデルを使用して戦略学習テクノロジーにフィードバックを提供しています。いくつかの研究では、VLM モデルのビジュアル質問応答 (VQA) 機能がロボット工学のユースケースに使用できることが示されています。たとえば、研究者は VLM を使用して視覚コンテンツに関連する質問に答え、ロボットがタスクを完了できるようにしました。さらに、一部の研究者は VLM を使用してデータの注釈を支援し、ビジュアルコンテンツの説明ラベルを生成します。

視覚および言語処理における基本モデルの変革的な機能にもかかわらず、現実世界のロボットタスクのための基本モデルの一般化と微調整は依然として困難です。

これらの課題には以下が含まれます:

1) データ不足: ロボットの操作、位置決め、ナビゲーションなどのタスクをサポートするインターネット規模のデータを取得する方法、およびこれらのデータを自分自身で使用する方法-教師ありトレーニング;

2) 巨大な多様性: 基盤となるモデルに必要な一般性を維持しながら、物理環境、物理的なロボットプラットフォーム、および潜在的なロボットタスクの巨大な多様性にどのように対処するか;

3) 不確実な定量的問題: インスタンスレベルの不確実性 (言語の曖昧さ、LLM の錯覚など)、分布レベルの不確実性、および分布シフト問題、特に閉ループロボットの導入によって引き起こされる分布シフト問題を解決する方法。

4) 安全性評価: 導入前、更新プロセス中、および作業プロセス中に、基本モデルに基づいてロボットシステムを厳密にテストする方法。

5) リアルタイムパフォーマンス: 一部の基本モデルの長い推論時間に対処する方法 - これはロボットへの基本モデルの展開の妨げになります、および基本モデルの推論を高速化する方法 - これはオンラインでの意思決定の鍵が必要です。

このレビューペーパーは、ロボット工学の分野における基本モデルの現在の使用法を要約しています。研究者は現在の方法、応用、課題を調査し、これらの課題に対処するための将来の研究の方向性を提案します。また、ロボットの自律性を実現するためにベースモデルを使用する場合に存在する可能性がある潜在的なリスクも指摘しました。

ベースモデルの背景知識

ベースモデルには数十億のパラメータがあります。、インターネットレベルの大規模データを事前トレーニングに使用します。このような大規模で複雑なモデルのトレーニングには非常に費用がかかります。データの取得、処理、管理のコストも高額になる可能性があります。そのトレーニングプロセスには、大量のコンピューティングリソースが必要であり、GPU や TPU などの専用ハードウェアの使用が必要であり、モデルトレーニング用のソフトウェアとインフラストラクチャも必要であり、これらすべてに財政的投資が必要です。さらに、ベースモデルのトレーニング時間も非常に長く、コストも高くなります。したがって、これらのモデルはプラグイン可能なモジュールとしてよく使用されます。つまり、基本モデルは大規模なカスタマイズ作業なしでさまざまなアプリケーションに統合できます。

表 1 に、一般的に使用される基本モデルの詳細を示します。

大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら

このセクションでは、LLM、ビジュアル Transformer、VLM、具体化されたマルチモーダル言語モデル、およびビジュアル生成モデルに焦点を当てます。さらに、ベースモデルのトレーニングに使用されるさまざまなトレーニング方法も紹介されます。

最初に、トークン化、生成モデル、識別モデル、Transformer アーキテクチャ、自己回帰モデル、マスクされた自動など、関連する用語と数学的知識が紹介されます。エンコーディング、対照学習、拡散モデル。

その後、大規模言語モデル (LLM) の例と歴史的背景を紹介します。その後、ビジュアル Transformer、マルチモーダルビジョン言語モデル (VLM)、具体化されたマルチモーダル言語モデル、ビジュアル生成モデルが強調されました。

ロボット研究

このセクションでは、ロボットの意思決定、計画、制御に焦点を当てます。この分野では、大規模言語モデル (LLM) と視覚言語モデル (VLM) の両方がロボットの機能を強化するために使用される可能性があります。たとえば、LLM はタスク仕様プロセスを容易にし、ロボットが人間から高レベルの指示を受け取って解釈できるようにします。

VLM もこの分野への貢献が期待されています。 VLM は視覚データの分析に優れています。ロボットが情報に基づいた意思決定を行い、複雑なタスクを実行するには、視覚的な理解が不可欠です。現在、ロボットは自然言語の合図を使用して、操作、ナビゲーション、インタラクションに関連するタスクを実行する能力を強化できるようになりました。

目標ベースの視覚言語政策学習 (模倣学習または強化学習による) は、基本モデルによって改善されることが期待されます。言語モデルは、ポリシー学習手法へのフィードバックも提供できます。ロボットは LLM から受け取るフィードバックに基づいて動作を最適化できるため、このフィードバックループはロボットの意思決定能力を継続的に向上させるのに役立ちます。

このセクションでは、ロボットの意思決定の分野における LLM と VLM の応用に焦点を当てます。

このセクションは 6 つの部分に分かれています。最初の部分では、言語ベースの模倣学習と言語支援強化学習を含む、意思決定と制御のためのポリシー学習とロボットを紹介します。

2 番目の部分は、目標に基づいた言語イメージ価値学習です。

3 番目のパートでは、ロボットタスクを計画するための大規模な言語モデルの使用について紹介します。これには、言語命令によるタスクの説明と、言語モデルを使用したタスク計画用のコードの生成が含まれます。

4 番目の部分は、意思決定のための文脈学習 (ICL) です。

次に紹介するのは、ロボットトランスフォーマーです。

6 番目のパートは、ロボットのナビゲーションとオープンボキャブラリーライブラリの操作です。

表 2 は、いくつかの基本的なロボット固有のモデル、レポートモデルのサイズとアーキテクチャ、事前トレーニングタスク、推論時間、およびハードウェアセットアップを示しています。

大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら

書き直す必要があるのは、認識です。

周囲の環境と対話するロボットは、画像、ビデオ、音声、言語などのさまざまな形式で感覚情報を受け取ります。この高次元データは、ロボットが環境を理解し、推論し、対話するために不可欠です。基本モデルは、これらの高次元の入力を、解釈と操作が容易な抽象構造化表現に変換できます。特に、マルチモーダル基本モデルにより、ロボットはさまざまな感覚からの入力を、意味論的、空間的、時間的、およびアフォーダンスの情報を含む統一された表現に統合できます。これらのマルチモーダルモデルには、クロスモーダルな相互作用が必要であり、多くの場合、一貫性と相互対応を確保するために、さまざまなモダリティの要素を調整する必要があります。たとえば、画像説明タスクでは、テキストと画像データの位置合わせが必要です。

このセクションでは、ロボットが書き換える必要があるもの、つまり基本モデルを使用してモダリティを調整することで改善できる知覚に関連する一連のタスクに焦点を当てます。視覚と言語に重点が置かれています。

このセクションは 5 つの部分に分かれており、最初はオープンボキャブラリーのターゲット検出と 3D 分類、次にオープンボキャブラリーのセマンティックセグメンテーション、次にオープンボキャブラリーの 3D シーンとターゲット表現です。次に学習されたアフォーダンス、そして最後に予測モデルです。

身体化 AI

最近、LLM が身体化 AI の分野でうまく使用できることがいくつかの研究で示されています。ここでの「身体化」とは、通常、仮想化された AI を指します。物理的なロボットの体を持つのではなく、世界のシミュレーターです。

この分野では、いくつかの興味深いフレームワーク、データセット、モデルが登場しています。特に注目すべきは、肉体を持ったエージェントを訓練するためのプラットフォームとして Minecraft ゲームを使用していることです。たとえば、Voyager は GPT-4 を使用して、Minecraft 環境を探索するエージェントをガイドします。 GPT-4 のモデルパラメーターを微調整することなく、コンテキストプロンプト設計を通じて GPT-4 と対話できます。

強化学習は、ロボット学習の分野における重要な研究方向です。研究者は、基本モデルを使用して報酬関数を設計し、強化学習を最適化しようとしています。

ロボットが高レベルの計画を実行できるように、研究者は、基本的なモデルを使用して探索を支援してきました。さらに、一部の研究者は、思考連鎖ベースの推論およびアクション生成手法を身体化された知能に適用しようとしています

課題と今後の方向性

このセクションでは、思考連鎖ベースの推論およびアクション生成方法を身体化知能に適用しようとしています。ロボット工学の基本モデルが提供されます。チームはまた、これらの課題に対処する可能性のある将来の研究の方向性を模索する予定です。

最初の課題は、ロボットのベースモデルをトレーニングする際のデータ不足の問題を克服することです:

1. 非構造化ゲームデータとラベルのない人間のビデオを使用してロボットの学習を拡張する

2. 画像修復 (Inpainting) を使用してデータを強化する

##3. 3D 基本モデルをトレーニングする際の 3D データ不足の問題を克服する

##4. 高忠実度シミュレーションによる合成データの生成

5. データ拡張に VLM を使用するデータ拡張に VLM を使用することは効果的な方法です

6. ロボットの身体的スキルはスキルの配分によって制限されます

2 番目の課題はリアルタイムパフォーマンスに関連しており、そのうちの 1 つは、キーは基礎モデルの推論時間です。

3 番目の課題には、マルチモーダル表現の制限が含まれます。

4 番目の課題は、インスタンスレベルやディストリビューションレベルなど、さまざまなレベルで不確実性を定量化する方法であり、ディストリビューションのシフトをどのように調整して対処するかという問題も伴います。

5 番目の課題には、展開前のセキュリティテストや実行時の監視、配布外状況の検出などのセキュリティ評価が含まれます。

6 番目の課題には、ロボットの既存のベースモデルを使用するか、それとも新しいベースモデルを構築するかを選択する方法が含まれます。

7 番目の課題には、ロボットのセットアップのばらつきが大きいことが関係します。

8 番目の課題は、ロボット設定でベンチマークを実行し、再現性を確保する方法です。

研究の詳細については、元の論文を参照してください。

以上が大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちらの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7457

CakePHP チュートリアル

1376

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

DeepMind ロボットが卓球をすると、フォアハンドとバックハンドが空中に滑り出し、人間の初心者を完全に打ち負かしました Aug 09, 2024 pm 04:01 PM

でももしかしたら公園の老人には勝てないかもしれない？パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボットエージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

初のメカニカルクロー！元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した Aug 21, 2024 pm 07:33 PM

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition（以下、「Yuanluobot SenseRobot」という）をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

クロードも怠け者になってしまった！ネチズン: 自分に休日を与える方法を学びましょう Sep 02, 2024 pm 01:56 PM

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました Aug 22, 2024 pm 10:35 PM

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標（速度、負荷）を追求していると説明した。など）、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

AIハードウェアがまたメンバー追加！携帯電話を置き換えるのではなく、NotePinは長生きできるでしょうか？ Sep 02, 2024 pm 01:40 PM

これまでのところ、AI ウェアラブルデバイス分野で特に優れた結果を達成した製品はありません。今年初めのMWC24で発表されたAIPinは、評価プロトタイプが出荷されると、発表当時に喧伝された「AI神話」が崩れ始め、わずか1年で大規模なリターンを獲得した。数か月; RabbitR1 も当初は比較的よく売れましたが、大量に出荷されたときは「Android ケース」と同様に否定的な評価を受けました。さて、別の企業がAIウェアラブルデバイス分野に参入しました。テクノロジーメディアのTheVergeは昨日、AIスタートアップのPlaudがNotePinという製品を発売したとのブログ投稿を公開した。まだ「絵を描いている」段階にあるAIFriendとは異なり、NotePinはすでに開始されています

ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件（未発表2件）、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました Aug 08, 2024 am 07:02 AM

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザープリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマートスクリーン S5Pro など、スマートトラベル、スマートオフィスからスマートウェアに至るまで、多くの新しいオールシナリオスマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフルシナリオのスマートエコシステムを構築し続けています。すべてのインターネット。宏孟志興氏：スマートカー業界のアップグレードを促進するための徹底的な権限付与ファーウェイは中国の自動車業界パートナーと提携して、

Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました Sep 03, 2024 pm 05:18 PM

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。、そしてティーポットを一定の角度に傾けます。これ

See all articles

大型モデル + ロボット、多くの中国の学者の参加による詳細なレビューレポートはこちら

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック