Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソース データの量は 10 倍に増加します。

PHPz
リリース: 2023-04-21 19:34:08
転載
1474 人が閲覧しました

注意して見てください。目の前の男性は、「緑の星を赤いブロックの間に押してください」「青いブロックを左下に移動してください」などの自然言語でロボットに指示を出し続けています。 Corner」では、ロボットはすべての入力コマンドをリアルタイムで完了できます。

1960 年代以来、ロボット工学の専門家は、ロボットに人間の「自然言語の指示」を理解させ、特定の動作を実行させることを試みてきました。

理想的には、将来のロボットは、ユーザーが自然言語で記述できる関連タスクにリアルタイムで反応するようになります。

特にオープンな人間の環境では、ユーザーは、ロボットの動作が発生したときに、「停止してアームを少し上に動かす」などの素早い修正を提供したり、ロボットの動作をカスタマイズしたりする必要がある場合があります。 「ゆっくり右に移動」を制限します。

Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソース データの量は 10 倍に増加します。

さらに、リアルタイム言語により、人間とロボットが複雑な長期タスクで共同作業することが容易になり、人間は次のことを行うことができます。ロボットを反復的かつ対話的にガイドします。操作時には、口頭でフィードバックが行われる場合もあります。

現在の関連作業は大きく次の 3 つの部分に分けることができます:

1. ロボット本体が現実世界に存在する必要があります。 ;

2. 多数の豊富な自然言語コマンドに応答できる;

3. 対話型の実行が可能 (インタラクティブ) 言語コマンド 、つまり、ロボットはタスクの実行中に新しい自然言語命令を受け入れる必要があります。

3 番目の点については、現在のロボット分野におけるインタラクティブ開発のスピードは依然として非常に遅く、そのためロボットには「生命感」が欠けています。

最近 Google は、自然言語命令を実行する現実世界のリアルタイム インタラクティブ ロボット、および関連するデータ セットと環境を生成できるまったく新しいフレームワークを提案する論文を発表しました。ベンチマークと戦略はすべて利用可能です。

Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソース データの量は 10 倍に増加します。

紙のリンク: https://arxiv.org/pdf/2210.06407.pdf

##プロジェクトのホームページ: https://interactive- language.github.io/

数十万の言語注釈の軌跡のデータセットを通じて動作クローン作成トレーニングにより、結果として得られるポリシーは、以前の作業で達成されたものよりも桁違いに多くのコマンドを巧みに実行できます。実際の世界では、研究者らは、この方法が 87,000 の異なる自然言語文字列に対して 93.5% の成功率を示したと推定しました。

Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソース データの量は 10 倍に増加します。# そして、同じ戦略を人間が自然言語を介してリアルタイムで導き、広範囲にわたる正確な長距離再配置の目標を解決することができます。 「積み木で笑顔をつくろう」など

論文とともにリリースされたデータ セットには、言語タグ付きの軌跡が約 600,000 個含まれており、これは以前に利用可能なデータ セットよりも桁違いに多くなります。

対話型言語: ロボットとのリアルタイム会話

ロボットを現実世界に統合するには、オープンな自然言語を処理できることが最も重要です。学習の観点から見ると、ロボットにオープンボキャブラリー言語を学習させるのは大きな課題です。

オープン代表モデルは、小さな修正指示などを含む、多数のタスクを実行する必要があります。既存のマルチタスク学習セットアップでは、慎重に設計された模倣学習データセットや複雑な強化学習報酬関数を利用して各タスクの学習を推進しており、このように設計された事前定義セットはそれほど大きくないはずです。

したがって、オープンボキャブラリーのタスクにおける重要な質問は、実際の環境における何千もの動作をカバーするようにロボット データの収集を拡張する方法と、このすべての動作をどのように結び付けるかということです。エンドユーザーが実際に提供する可能性のある自然言語の指示はどうなるのでしょうか?

インタラクティブ言語において、Google が提案する大規模シミュレーション学習フレームワークの鍵は、大規模な複数言語の条件付きロボット デモンストレーション データ セットを作成するスケーラビリティです。

すべてのスキルが定義されてから各スキルの厳選されたデモンストレーションが収集された以前の設定とは異なり、研究者はシーンのリセットなしで複数のロボットで作業を続けました。) または低レベルのスキルのセグメンテーション。

失敗したデータ (テーブルからブロックを落とすなど) を含むすべてのデータは、テキストと組み合わせる前に HindSight 言語の再ラベル付けプロセスを通過する必要があります。

このプロセスでは、アノテーターは長いロボットのビデオを見て、できるだけ多くの動作を特定し、各動作の開始時間と終了時間をマークし、無制限の形式の自然言語を使用して説明する必要があります。それぞれの断片。

最も重要なことは、以前の一連のブートストラップと比較して、トレーニングに使用されるすべてのスキルが、研究者によって事前に設定されるのではなく、データ自体からボトムアップで明らかにされることです。明確な。

Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソース データの量は 10 倍に増加します。

研究者らは、学習方法とアーキテクチャを可能な限りシンプルにすることを意図して作成しました。ロボット ポリシー ネットワークは、5 Hz ビデオを組み合わせたクロスアテンション トランスフォーマーです。 5 Hz のロボットの動きにマッピングすると、ターゲットは補助損失なしで標準の教師あり学習動作を使用して複製されます。

テスト中、新しい自然言語コマンドは、最大 5 Hz の速度で音声テキスト変換を介してポリシー ネットワークに送信できます。

オープンソース ベンチマーク

アノテーション プロセス中に、研究者らは、言語コマンドの自然なデモンストレーションの 440,000 を超える実際のロボット実行と 180,000 を超えるシミュレートされたロボット実行を含む言語テーブル データセットを収集しました。 、およびデモンストレーション中にロボットが実行する一連のアクション。

Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソース データの量は 10 倍に増加します。

これは、現在最大の言語条件付きロボット デモンストレーション データ セットでもあり、直接的には一桁改善されています。

Language-Table は、モデルの選択や、さまざまな方法で訓練されたロボットの命令実行能力の評価に使用できるシミュレーション学習ベンチマークを開始しました。

リアルタイム言語行動学習

研究者らは実験で、ロボットがリアルタイムで入力された自然言語命令に従うことができる場合に特に強力であることを発見しました。

研究者らは、プロジェクトのウェブサイトで、ユーザーが自然言語のみを使用して長期的な問題を解決するために複雑な長期シーケンスを通じてロボットを誘導できることを実証しており、これは正確な協調制御の目標である。

Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソース データの量は 10 倍に増加します。

たとえば、テーブル上にたくさんのブロックがある場合、コマンドは「緑色の目でスマイリーフェイスを作成する」または「それらを配置する」のようになります。すべて縦線「上」など。

ロボットは公開語彙言語に従うように訓練されているため、実験ではロボットが「ゆっくり右に」など、さまざまな言葉による修正に反応することが確認されました。 」。

最後に、研究者らは、ロボットのデータ収集をより効率的にするなど、リアルタイム言語の利点を調査しました。人間のオペレーターが音声言語を使用して 4 台のロボットを制御できる可能性があります。将来的には、各ロボットにアノテーターを装備することなく、ロボットのデータ収集を拡張できます。

結論

プロジェクトは現在、デスクトップ上のオブジェクトの固定セットに限定されていますが、対話型言語の実験結果は、大規模な模倣学習が実際に本物の学習を生み出すことができることを最初に示しています。時間インタラクティブ 自由形式のエンドユーザー コマンドに従うことができるボット。

物理ロボットのリアルタイム言語制御技術の進歩を促進するために、研究者たちは Language-Table をオープンソース化しました。これは、現在最大の実世界のロボット デモンストレーション データ セットに基づいています。言語条件に関連するシミュレーション ベンチマークとしても使用できます。

研究者らは、このデータセットの役割がロボット制御の分野に限定されるだけでなく、言語や動作の条件付きビデオ予測、ロボットビデオの研究にも使用できる可能性があると考えています。条件付き言語モデリングは、より広範な機械学習のコンテキストにおける他の多くの興味深い活発な問題を研究するための新しい出発点を提供します。

以上がGoogle ロボットは 93.5% の精度で対話型言語を実現し、オープンソース データの量は 10 倍に増加します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート