目次
実験結果
ホームページ テクノロジー周辺機器 AI 身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

Mar 11, 2024 pm 01:10 PM
グーグル 知的 研究 ロボット技術

GPT-4 などの大規模な言語モデルがロボット工学との統合が進むにつれて、人工知能は徐々に現実世界に移行しつつあります。したがって、身体化された知能に関連する研究もますます注目を集めています。数ある研究プロジェクトの中でも、Googleのロボット「RT」シリーズは常に最前線にあり、最近その傾向が加速し始めている(詳細は「大規模モデルがロボットを再構築、Google Deepmindが未来の身体的知能をどう定義するか」を参照)。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

昨年 7 月、Google DeepMind は、視覚言語行動 (VLA) を制御できる世界初のロボットである RT-2 を発売しました。 . ) 相互作用モデル。会話形式で指示を与えるだけで、RT-2 は大量の写真からスウィフトを特定し、コーラの缶を彼女に届けることができます。

今、このロボットがまた進化しました。 RTロボットの最新バージョンは「RT-H」と呼ばれ、複雑なタスクを単純な言語命令に分解し、その命令をロボットの動作に変換することで、タスク実行の精度と学習効率を向上させることができます。たとえば、「ピスタチオの瓶に蓋をする」などのタスクとシーン画像が与えられると、RT-H は視覚言語モデル (VLM) を使用して、「腕を前に動かす」などの言語動作 (動作) を予測します。 「」「腕を右に回してください」といった言葉の行動をもとにロボットの行動を予測します。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

#アクション階層は、ロボット タスクの実行の精度と学習効率を最適化するために重要です。この階層構造により、RT-H はさまざまなロボット タスクにおいて RT-2 よりも大幅にパフォーマンスが向上し、ロボットにより効率的な実行パスが提供されます。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

論文の詳細は次のとおりです。

論文の概要

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

    ##論文のタイトル: RT-H: 言語を使用したアクション階層
  • 論文のリンク: https://arxiv.org/pdf/2403.01823.pdf
  • プロジェクトリンク: https://rt-hierarchy.github.io/
  • 言語は複雑な概念をより単純なコンポーネントに分解し、誤解を修正し、新しい文脈で概念を一般化することを可能にする人間の推論のエンジンです。近年、ロボットは、高レベルの概念を分解したり、言語の修正を行ったり、新しい環境での一般化を達成したりするために、言語の効率的で結合された構造を使用し始めています。

これらの研究は通常、共通のパラダイムに従います。つまり、言語で説明された高レベルのタスク (「コーラの缶を拾う」など) に直面して、観察とタスクを組み合わせる方法を学習します。言語での説明 ポリシーを低レベルのロボット アクションにマッピングします。これには大規模なマルチタスク データセットが必要です。これらのシナリオにおける言語の利点は、類似したタスク間で共有構造をエンコードすること (たとえば、「コーラの缶を拾う」と「リンゴを拾う」) ため、タスクからアクションへのマッピングを学習するために必要なデータが削減されることです。しかし、タスクがより多様になるにつれて、各タスクを説明するために使用される言語もより多様になり(例:「コーラの缶を拾う」と「水をグラスに注ぐ」)、異なるタスク間での学習は高級言語のみで行われるようになります。構造を共有することがより困難になる

研究者は、多様なタスクを学習するために、これらのタスク間の類似点をより正確に把握することを目指しています。

彼らは、言語は高レベルのタスクを説明するだけでなく、そのタスクを完了する方法を詳細に説明できることを発見しました。この種の表現はより繊細で、特定のアクションに近いものになります。たとえば、「コーラの缶を拾う」という作業は、一連のより詳細なステップ、つまり「言語動作」に分解できます。最初に「腕を前に伸ばす」、次に「缶を掴む」、そして最後に「持ち上げる」です。腕を上に上げます。」研究者らの核となる洞察は、高レベルのタスク記述と低レベルのアクションを接続する中間層として言語アクションを使用することで、言語アクションを通じて形成されるアクション階層を構築するために使用できるということです。

このレベルのアクションを確立すると、いくつかの利点があります:

  • これにより、異なるタスク間で言語アクション レベルでのデータの共有が向上し、言語アクションの組み合わせとマルチタスク データ セットの一般化が強化されます。たとえば、「コップに水を注ぐ」と「コーラの缶を拾う」は意味的には異なりますが、それらの言語動作は、オブジェクトを拾うために実行されるまではまったく同じです。
  • 言語アクションは、単に固定されたプリミティブではなく、現在のタスクとシーンの詳細に基づいた指示と視覚的観察を通じて学習されます。たとえば、「腕を前に伸ばす」という言葉は、移動の速度や方向を指定するものではなく、特定のタスクや観察に依存します。学習された言語動作のコンテキスト依存性と柔軟性により、戦略が 100% 成功しない場合でも言語動作を変更できるという新しい機能が提供されます (図 1 のオレンジ色の領域を参照)。さらに、ロボットはこうした人間の修正から学習することもできます。たとえば、「コーラの缶を拾う」というタスクを実行するときに、ロボットが事前にグリッパーを閉じている場合は、「アームを前方に長く伸ばしたままにする」ようにロボットに指示できますが、特定のシナリオでのこの種の微調整は必要ありません。人間の誘導だけが容易であり、ロボットにとっては学習が容易です。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

言語アクションの上記の利点を考慮して、Google DeepMind の研究者はエンドツーエンドのフレームワーク - RT-H を設計しました。 ( アクション階層を備えたロボット トランスフォーマー、つまりアクション レベルを使用するロボット トランスフォーマーは、このタイプのアクション レベルの学習に焦点を当てています。 RT-H は、観察と高レベルのタスクの説明を分析して現在の口頭行動指示を予測することで、詳細レベルでタスクを実行する方法を理解します。次に、これらの観察、タスク、および推定された言語アクションを使用して、RT-H は各ステップに対応するアクションを予測します。言語アクションは、特定のアクションをより正確に予測するのに役立つ追加のコンテキストをプロセスに提供します (図 1 の紫色の領域)。

さらに、彼らはロボットの固有受容から単純化された言語アクション セットを抽出する自動化手法を開発し、手動でラベルを付けることなく 2,500 を超える言語アクションの豊富なデータベースを構築しました。

RT-H のモデル アーキテクチャは、インターネット スケールの視覚データと言語データで共同トレーニングされた大規模視覚言語モデル (VLM) である RT-2 を利用しており、戦略学習の有効性。 RT-H は単一のモデルを使用して言語アクションとアクション クエリの両方を処理し、インターネット規模の広範な知識を活用してアクション階層のあらゆるレベルを強化します。

研究者らは実験で、言語アクション階層を使用すると、さまざまなタスクで RT-2 と比較して、多様なマルチタスク データセットの処理が大幅に向上することを発見しました。パフォーマンスは 15 向上しました。 %。彼らはまた、音声動作を変更すると、同じタスクでほぼ完璧な成功率が得られることを発見し、学習された音声動作の柔軟性と状況適応性を実証しました。さらに、言語アクション介入のモデルを微調整することにより、そのパフォーマンスは SOTA 対話型模倣学習手法 (IWR など) を 50% 上回ります。最終的に、RT-H の言語アクションがシーンやオブジェクトの変化によりよく適応できることが証明され、RT-2 よりも優れた汎化パフォーマンスが示されました。

#RT-H アーキテクチャの詳細な説明

#マルチタスク データセット全体の共有構造を効果的にキャプチャするために (高度なデータセットでは表現されません)レベルのタスクの説明)、RT-H はアクション レベルの戦略を明示的に活用する方法を学ぶことを目的としています。

具体的には、研究チームは中間言語アクション予測層をポリシー学習に導入しました。ロボットのきめ細かい動作を記述する言語アクションにより、マルチタスク データセットから有用な情報を取得し、高パフォーマンスのポリシーを生成できます。学習したポリシーを実行するのが難しい場合には、言葉によるアクションが再び機能することがあります。これらは、特定のシナリオに関連するオンラインの人的修正のための直感的なインターフェイスを提供します。音声アクションに基づいてトレーニングされたポリシーは、人間による低レベルの修正に自然に追従し、修正データが与えられたタスクを正常に完了できます。さらに、この戦略は言語修正されたデータでトレーニングすることもでき、そのパフォーマンスをさらに向上させることができます。

#図 2 に示すように、RT-H には 2 つの主要な段階があります。まず、タスクの説明と視覚的観察に基づいて言語アクションを予測し、次に、予測された言語アクションに基づいて言語アクションを予測します。具体的なタスクや観察結果から、正確なアクションを推測します。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

RT-H は VLM バックボーン ネットワークを使用し、RT-2 のトレーニング手順に従ってインスタンス化します。 RT-2 と同様に、RT-H は共同トレーニングを通じてインターネット規模のデータからの自然言語と画像処理に関する広範な事前知識を活用します。この事前知識をアクション階層のすべてのレベルに組み込むために、単一のモデルが言語アクションとアクション クエリの両方を同時に学習します。

実験結果

RT-H のパフォーマンスを包括的に評価するために、研究チームは 4 つの重要な実験質問を設定しました。

  • Q1 (パフォーマンス): 言語を含むアクション階層により、マルチタスク データセットでのポリシーのパフォーマンスを向上させることができますか?
  • Q2 (状況): RT-H によって学習された言語アクションは、タスクやシーンのコンテキストに関連していますか?
  • Q3 (訂正): 音声動作矯正のトレーニングは遠隔操作矯正より優れていますか?
  • Q4 (概要): アクション階層により、配布外設定の堅牢性を向上させることができますか?

#データセットに関して、この研究では、ランダムなオブジェクトのポーズと背景を持つ 100,000 個のデモンストレーション サンプルを含む大規模なマルチタスク データ セットを使用します。このデータセットは、次のデータセットを組み合わせています:

  • キッチン: RT-1 および RT-2 で使用されるデータセット。70,000 サンプルからの 6 つのセマンティック タスク カテゴリで構成されます。
  • 多様性: 24 を超えるセマンティック タスク カテゴリを含む、より複雑なタスクで構成される新しいデータセットですが、サンプルはわずか 30,000 個です。

研究では、この結合データセットを Diverse Kitchen (DK) データセットと呼び、自動プログラムを使用して言語アクションのラベルを付けました。完全な Diverse Kitchen データセットでトレーニングされた RT-H のパフォーマンスを評価するために、研究では次の 8 つの特定のタスクを評価しました。

1) ボウルをカウンターの上に直立して置きます。

2) ピスタチオの瓶を開ける

3) ピスタチオの瓶を閉じる

4 ) ボウルを移動しますシリアルディスペンサーから離してください

5) ボウルをシリアルディスペンサーの下に置きます

6) オートミールをボウルに置きます 中

7) バスケットからスプーンを取り出します

8) ディスペンサーからナプキンを取り出します

これら複雑なアクションシーケンスと高い精度が必要なため、8 つのタスクが選択されました。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

次の表に、トレーニング チェックポイントの RT-H、RT-H-Joint、および RT-2 最小 MSE を示します。 RT-H の MSE は RT-2 より約 20% 低く、RTH-Joint の MSE は RT-2 より 5 ~ 10% 低く、アクション階層が大規模マルチ環境におけるオフライン アクション予測の向上に役立つことを示しています。タスクデータセット。 RT-H (GT) はグラウンド トゥルース MSE メトリックを使用し、エンドツーエンド MSE との 40% の差を達成しています。これは、正しくラベル付けされた言語アクションがアクションを予測するための高い情報価値を持っていることを示しています。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場# 図 4 は、RT-H オンライン評価から得られた状況に応じたアクションの例をいくつか示しています。見てわかるように、同じ言語動作でも、より高いレベルの言語動作を尊重しながら、タスクを達成するために動作が微妙に変化することがよくあります。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場図 5 に示すように、研究チームは、RT-H の言語動作にオンラインで介入することで、RT-H の柔軟性を実証しました。

#この研究では、補正の効果を分析するために比較実験も使用しました。結果は、以下の図 6 に示されています。 身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

##図 7 に示すように、RT-H および RT-H-Joint はシーンの変更に対して大幅に堅牢です。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

実際には、一見異なるタスク間には共有構造があります。たとえば、これらのタスクのそれぞれでは、タスクを開始するためにいくつかのピッキング動作が必要ですが、異なるタスクにわたる言語アクションの共有構造を学習することで、RT - H は修正を行わずにピックアップ フェーズを完了します。

身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場

RT-H が発話動作の予測を一般化できなくなった場合でも、通常は発話動作の修正により一般化できるため、いくつかの修正を行うだけで済みます。仕事はうまくいきます。これは、新しいタスクに関するデータ収集を拡大する口頭行動の可能性を示しています。

興味のある読者は、論文の原文を読んで研究内容をさらに詳しく知ることができます。

以上が身体化された知能に関する Google の新しい研究: RT-2 よりも優れた RT-H が登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Deepseekをコメントする方法 Deepseekをコメントする方法 Feb 19, 2025 pm 05:42 PM

DeepSeekは、強力な情報を取得することですが、その不利な点は遅いことです。

DeepSeekを検索する方法 DeepSeekを検索する方法 Feb 19, 2025 pm 05:39 PM

DeepSeekは、特定のデータベースまたはシステムでのみ検索する独自の検索エンジンであり、より速く、より正確です。それを使用する場合、ユーザーはドキュメントを読み、さまざまな検索戦略を試し、ユーザーエクスペリエンスに関するヘルプを求めてフィードバックを求めて、利点を最大限に活用することをお勧めします。

セサミオープンドア交換Webページ登録リンクゲートトレーディングアプリ登録Webサイト最新 セサミオープンドア交換Webページ登録リンクゲートトレーディングアプリ登録Webサイト最新 Feb 28, 2025 am 11:06 AM

この記事では、SESAME Open Exchange(gate.io)Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

セサミオープンドアトレーディングプラットフォームダウンロードモバイルバージョンgateioトレーディングプラットフォームのダウンロードアドレス セサミオープンドアトレーディングプラットフォームダウンロードモバイルバージョンgateioトレーディングプラットフォームのダウンロードアドレス Feb 28, 2025 am 10:51 AM

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? Feb 21, 2025 pm 10:57 PM

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

gate.io交換公式登録ポータル gate.io交換公式登録ポータル Feb 20, 2025 pm 04:27 PM

Gate.ioは、幅広い暗号資産と取引ペアを提供する主要な暗号通貨交換です。 gate.ioの登録は非常に簡単です。公式ウェブサイトにアクセスするか、「登録」をクリックし、登録フォームに入力し、電子メールを確認し、2因子検証(2FA)を設定する必要があります。登録を完了します。 gate.ioを使用すると、ユーザーは安全で便利な暗号通貨取引体験を楽しむことができます。

Binance Binance公式Webサイト最新バージョンログインポータル Binance Binance公式Webサイト最新バージョンログインポータル Feb 21, 2025 pm 05:42 PM

Binance Webサイトログインポータルの最新バージョンにアクセスするには、これらの簡単な手順に従ってください。公式ウェブサイトに移動し、右上隅の[ログイン]ボタンをクリックします。既存のログインメソッドを選択してください。「登録」してください。登録済みの携帯電話番号または電子メールとパスワードを入力し、認証を完了します(モバイル検証コードやGoogle Authenticatorなど)。検証が成功した後、Binance公式WebサイトLogin Portalの最新バージョンにアクセスできます。

2025年のBitgetの最新のダウンロードアドレス:公式アプリを取得する手順 2025年のBitgetの最新のダウンロードアドレス:公式アプリを取得する手順 Feb 25, 2025 pm 02:54 PM

このガイドは、AndroidおよびiOSシステムに適した公式Bitget Exchangeアプリの詳細なダウンロードとインストール手順を提供します。このガイドは、公式ウェブサイト、App Store、Google Playなど、複数の権威ある情報源からの情報を統合し、ダウンロードおよびアカウント管理中の考慮事項を強調しています。ユーザーは、App Store、公式WebサイトAPKダウンロード、公式Webサイトジャンプ、完全な登録、ID検証、セキュリティ設定など、公式チャネルからアプリをダウンロードできます。さらに、ガイドはよくある質問や考慮事項をカバーします。

See all articles