Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソースデータの量は 10 倍に増加します。-AI-php.cn

ロボットを現実世界に統合するには、オープンな自然言語を処理できることが最も重要です。学習の観点から見ると、ロボットにオープンボキャブラリー言語を学習させるのは大きな課題です。

オープンソースベンチマーク

リアルタイム言語行動学習

結論

ホームページ

テクノロジー周辺機器

Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソースデータの量は 10 倍に増加します。

PHPz

Apr 21, 2023 pm 07:34 PM

グーグルロボット

注意して見てください。目の前の男性は、「緑の星を赤いブロックの間に押してください」「青いブロックを左下に移動してください」などの自然言語でロボットに指示を出し続けています。 Corner」では、ロボットはすべての入力コマンドをリアルタイムで完了できます。

1960 年代以来、ロボット工学の専門家は、ロボットに人間の「自然言語の指示」を理解させ、特定の動作を実行させることを試みてきました。

理想的には、将来のロボットは、ユーザーが自然言語で記述できる関連タスクにリアルタイムで反応するようになります。

特にオープンな人間の環境では、ユーザーは、ロボットの動作が発生したときに、「停止してアームを少し上に動かす」などの素早い修正を提供したり、ロボットの動作をカスタマイズしたりする必要がある場合があります。「ゆっくり右に移動」を制限します。

Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソースデータの量は 10 倍に増加します。

さらに、リアルタイム言語により、人間とロボットが複雑な長期タスクで共同作業することが容易になり、人間は次のことを行うことができます。ロボットを反復的かつ対話的にガイドします。操作時には、口頭でフィードバックが行われる場合もあります。

現在の関連作業は大きく次の 3 つの部分に分けることができます:

1. ロボット本体が現実世界に存在する必要があります。 ;

2. 多数の豊富な自然言語コマンドに応答できる;

3. 対話型の実行が可能 (インタラクティブ) 言語コマンド、つまり、ロボットはタスクの実行中に新しい自然言語命令を受け入れる必要があります。

3 番目の点については、現在のロボット分野におけるインタラクティブ開発のスピードは依然として非常に遅く、そのためロボットには「生命感」が欠けています。

最近 Google は、自然言語命令を実行する現実世界のリアルタイムインタラクティブロボット、および関連するデータセットと環境を生成できるまったく新しいフレームワークを提案する論文を発表しました。ベンチマークと戦略はすべて利用可能です。

Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソースデータの量は 10 倍に増加します。

紙のリンク: https://arxiv.org/pdf/2210.06407.pdf

##プロジェクトのホームページ: https://interactive- language.github.io/

数十万の言語注釈の軌跡のデータセットを通じて動作クローン作成トレーニングにより、結果として得られるポリシーは、以前の作業で達成されたものよりも桁違いに多くのコマンドを巧みに実行できます。実際の世界では、研究者らは、この方法が 87,000 の異なる自然言語文字列に対して 93.5% の成功率を示したと推定しました。

Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソースデータの量は 10 倍に増加します。 # そして、同じ戦略を人間が自然言語を介してリアルタイムで導き、広範囲にわたる正確な長距離再配置の目標を解決することができます。「積み木で笑顔をつくろう」など

論文とともにリリースされたデータセットには、言語タグ付きの軌跡が約 600,000 個含まれており、これは以前に利用可能なデータセットよりも桁違いに多くなります。

対話型言語: ロボットとのリアルタイム会話

ロボットを現実世界に統合するには、オープンな自然言語を処理できることが最も重要です。学習の観点から見ると、ロボットにオープンボキャブラリー言語を学習させるのは大きな課題です。

オープン代表モデルは、小さな修正指示などを含む、多数のタスクを実行する必要があります。既存のマルチタスク学習セットアップでは、慎重に設計された模倣学習データセットや複雑な強化学習報酬関数を利用して各タスクの学習を推進しており、このように設計された事前定義セットはそれほど大きくないはずです。

したがって、オープンボキャブラリーのタスクにおける重要な質問は、実際の環境における何千もの動作をカバーするようにロボットデータの収集を拡張する方法と、このすべての動作をどのように結び付けるかということです。エンドユーザーが実際に提供する可能性のある自然言語の指示はどうなるのでしょうか?

インタラクティブ言語において、Google が提案する大規模シミュレーション学習フレームワークの鍵は、大規模な複数言語の条件付きロボットデモンストレーションデータセットを作成するスケーラビリティです。

すべてのスキルが定義されてから各スキルの厳選されたデモンストレーションが収集された以前の設定とは異なり、研究者はシーンのリセットなしで複数のロボットで作業を続けました。) または低レベルのスキルのセグメンテーション。

失敗したデータ (テーブルからブロックを落とすなど) を含むすべてのデータは、テキストと組み合わせる前に HindSight 言語の再ラベル付けプロセスを通過する必要があります。

このプロセスでは、アノテーターは長いロボットのビデオを見て、できるだけ多くの動作を特定し、各動作の開始時間と終了時間をマークし、無制限の形式の自然言語を使用して説明する必要があります。それぞれの断片。

最も重要なことは、以前の一連のブートストラップと比較して、トレーニングに使用されるすべてのスキルが、研究者によって事前に設定されるのではなく、データ自体からボトムアップで明らかにされることです。明確な。

Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソースデータの量は 10 倍に増加します。

研究者らは、学習方法とアーキテクチャを可能な限りシンプルにすることを意図して作成しました。ロボットポリシーネットワークは、5 Hz ビデオを組み合わせたクロスアテンショントランスフォーマーです。 5 Hz のロボットの動きにマッピングすると、ターゲットは補助損失なしで標準の教師あり学習動作を使用して複製されます。

テスト中、新しい自然言語コマンドは、最大 5 Hz の速度で音声テキスト変換を介してポリシーネットワークに送信できます。

オープンソースベンチマーク

アノテーションプロセス中に、研究者らは、言語コマンドの自然なデモンストレーションの 440,000 を超える実際のロボット実行と 180,000 を超えるシミュレートされたロボット実行を含む言語テーブルデータセットを収集しました。、およびデモンストレーション中にロボットが実行する一連のアクション。

Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソースデータの量は 10 倍に増加します。

これは、現在最大の言語条件付きロボットデモンストレーションデータセットでもあり、直接的には一桁改善されています。

Language-Table は、モデルの選択や、さまざまな方法で訓練されたロボットの命令実行能力の評価に使用できるシミュレーション学習ベンチマークを開始しました。

リアルタイム言語行動学習

研究者らは実験で、ロボットがリアルタイムで入力された自然言語命令に従うことができる場合に特に強力であることを発見しました。

研究者らは、プロジェクトのウェブサイトで、ユーザーが自然言語のみを使用して長期的な問題を解決するために複雑な長期シーケンスを通じてロボットを誘導できることを実証しており、これは正確な協調制御の目標である。

Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソースデータの量は 10 倍に増加します。

たとえば、テーブル上にたくさんのブロックがある場合、コマンドは「緑色の目でスマイリーフェイスを作成する」または「それらを配置する」のようになります。すべて縦線「上」など。

ロボットは公開語彙言語に従うように訓練されているため、実験ではロボットが「ゆっくり右に」など、さまざまな言葉による修正に反応することが確認されました。」。

最後に、研究者らは、ロボットのデータ収集をより効率的にするなど、リアルタイム言語の利点を調査しました。人間のオペレーターが音声言語を使用して 4 台のロボットを制御できる可能性があります。将来的には、各ロボットにアノテーターを装備することなく、ロボットのデータ収集を拡張できます。

結論

プロジェクトは現在、デスクトップ上のオブジェクトの固定セットに限定されていますが、対話型言語の実験結果は、大規模な模倣学習が実際に本物の学習を生み出すことができることを最初に示しています。時間インタラクティブ自由形式のエンドユーザーコマンドに従うことができるボット。

物理ロボットのリアルタイム言語制御技術の進歩を促進するために、研究者たちは Language-Table をオープンソース化しました。これは、現在最大の実世界のロボットデモンストレーションデータセットに基づいています。言語条件に関連するシミュレーションベンチマークとしても使用できます。

研究者らは、このデータセットの役割がロボット制御の分野に限定されるだけでなく、言語や動作の条件付きビデオ予測、ロボットビデオの研究にも使用できる可能性があると考えています。条件付き言語モデリングは、より広範な機械学習のコンテキストにおける他の多くの興味深い活発な問題を研究するための新しい出発点を提供します。

以上がGoogle ロボットは 93.5% の精度で対話型言語を実現し、オープンソースデータの量は 10 倍に増加します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7752

Java チュートリアル

1643

CakePHP チュートリアル

1398

Laravel チュートリアル

1293

PHP チュートリアル

1234

Related knowledge

セサミオープンドア交換Webページ登録リンクゲートトレーディングアプリ登録Webサイト最新 Feb 28, 2025 am 11:06 AM

この記事では、SESAME Open Exchange（gate.io）Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

セサミオープンドアエクスチェンジウェブページログイン最新バージョンgateio公式ウェブサイトの入り口 Mar 04, 2025 pm 11:48 PM

ログインステップやパスワード回復プロセスなど、セサミオープンエクスチェンジWebバージョンのログイン操作の詳細な紹介も、ログイン障害、ページを開くことができず、プラットフォームにスムーズにログインするのに役立つ検証コードを受信できません。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか？ Feb 21, 2025 pm 10:57 PM

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか？ BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

Crypto Digital Asset Trading App（2025グローバルランキング）に推奨されるトップ10 Mar 18, 2025 pm 12:15 PM

この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散化された交換など、注意を払う価値のある上位10の暗号通貨取引プラットフォームを推奨しています。これらのプラットフォームには、トランザクションの数量、トランザクションの種類、セキュリティ、コンプライアンス、特別な機能の点で独自の利点があります。適切なプラットフォームを選択するには、あなた自身の取引体験、リスク許容度、投資の好みに基づいて包括的な検討が必要です。この記事があなたがあなた自身に最適なスーツを見つけるのに役立つことを願っています

セサミオープンドアトレーディングプラットフォームダウンロードモバイルバージョンgateioトレーディングプラットフォームのダウンロードアドレス Feb 28, 2025 am 10:51 AM

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

Binance Binance公式Webサイト最新バージョンログインポータル Feb 21, 2025 pm 05:42 PM

Binance Webサイトログインポータルの最新バージョンにアクセスするには、これらの簡単な手順に従ってください。公式ウェブサイトに移動し、右上隅の[ログイン]ボタンをクリックします。既存のログインメソッドを選択してください。「登録」してください。登録済みの携帯電話番号または電子メールとパスワードを入力し、認証を完了します（モバイル検証コードやGoogle Authenticatorなど）。検証が成功した後、Binance公式WebサイトLogin Portalの最新バージョンにアクセスできます。

ビットゲット取引プラットフォーム公式アプリのダウンロードとインストールアドレス Feb 25, 2025 pm 02:42 PM

このガイドは、AndroidおよびiOSシステムに適した公式Bitget Exchangeアプリの詳細なダウンロードとインストール手順を提供します。このガイドは、公式ウェブサイト、App Store、Google Playなど、複数の権威ある情報源からの情報を統合し、ダウンロードおよびアカウント管理中の考慮事項を強調しています。ユーザーは、App Store、公式WebサイトAPKダウンロード、公式Webサイトジャンプ、完全な登録、ID検証、セキュリティ設定など、公式チャネルからアプリをダウンロードできます。さらに、ガイドはよくある質問や考慮事項をカバーします。

2025年のBitgetの最新のダウンロードアドレス：公式アプリを取得する手順 Feb 25, 2025 pm 02:54 PM

See all articles