Google ロボットは 93.5% の精度で対話型言語を実現し、オープンソース データの量は 10 倍に増加します。
注意して見てください。目の前の男性は、「緑の星を赤いブロックの間に押してください」「青いブロックを左下に移動してください」などの自然言語でロボットに指示を出し続けています。 Corner」では、ロボットはすべての入力コマンドをリアルタイムで完了できます。
1960 年代以来、ロボット工学の専門家は、ロボットに人間の「自然言語の指示」を理解させ、特定の動作を実行させることを試みてきました。
理想的には、将来のロボットは、ユーザーが自然言語で記述できる関連タスクにリアルタイムで反応するようになります。
特にオープンな人間の環境では、ユーザーは、ロボットの動作が発生したときに、「停止してアームを少し上に動かす」などの素早い修正を提供したり、ロボットの動作をカスタマイズしたりする必要がある場合があります。 「ゆっくり右に移動」を制限します。
さらに、リアルタイム言語により、人間とロボットが複雑な長期タスクで共同作業することが容易になり、人間は次のことを行うことができます。ロボットを反復的かつ対話的にガイドします。操作時には、口頭でフィードバックが行われる場合もあります。
現在の関連作業は大きく次の 3 つの部分に分けることができます:
1. ロボット本体が現実世界に存在する必要があります。 ;
2. 多数の豊富な自然言語コマンドに応答できる;
3. 対話型の実行が可能 (インタラクティブ) 言語コマンド 、つまり、ロボットはタスクの実行中に新しい自然言語命令を受け入れる必要があります。
3 番目の点については、現在のロボット分野におけるインタラクティブ開発のスピードは依然として非常に遅く、そのためロボットには「生命感」が欠けています。
最近 Google は、自然言語命令を実行する現実世界のリアルタイム インタラクティブ ロボット、および関連するデータ セットと環境を生成できるまったく新しいフレームワークを提案する論文を発表しました。ベンチマークと戦略はすべて利用可能です。
紙のリンク: https://arxiv.org/pdf/2210.06407.pdf
##プロジェクトのホームページ: https://interactive- language.github.io/数十万の言語注釈の軌跡のデータセットを通じて動作クローン作成トレーニングにより、結果として得られるポリシーは、以前の作業で達成されたものよりも桁違いに多くのコマンドを巧みに実行できます。実際の世界では、研究者らは、この方法が 87,000 の異なる自然言語文字列に対して 93.5% の成功率を示したと推定しました。
# そして、同じ戦略を人間が自然言語を介してリアルタイムで導き、広範囲にわたる正確な長距離再配置の目標を解決することができます。 「積み木で笑顔をつくろう」など
論文とともにリリースされたデータ セットには、言語タグ付きの軌跡が約 600,000 個含まれており、これは以前に利用可能なデータ セットよりも桁違いに多くなります。
対話型言語: ロボットとのリアルタイム会話
ロボットを現実世界に統合するには、オープンな自然言語を処理できることが最も重要です。学習の観点から見ると、ロボットにオープンボキャブラリー言語を学習させるのは大きな課題です。
オープン代表モデルは、小さな修正指示などを含む、多数のタスクを実行する必要があります。既存のマルチタスク学習セットアップでは、慎重に設計された模倣学習データセットや複雑な強化学習報酬関数を利用して各タスクの学習を推進しており、このように設計された事前定義セットはそれほど大きくないはずです。
したがって、オープンボキャブラリーのタスクにおける重要な質問は、実際の環境における何千もの動作をカバーするようにロボット データの収集を拡張する方法と、このすべての動作をどのように結び付けるかということです。エンドユーザーが実際に提供する可能性のある自然言語の指示はどうなるのでしょうか?
インタラクティブ言語において、Google が提案する大規模シミュレーション学習フレームワークの鍵は、大規模な複数言語の条件付きロボット デモンストレーション データ セットを作成するスケーラビリティです。
すべてのスキルが定義されてから各スキルの厳選されたデモンストレーションが収集された以前の設定とは異なり、研究者はシーンのリセットなしで複数のロボットで作業を続けました。) または低レベルのスキルのセグメンテーション。
失敗したデータ (テーブルからブロックを落とすなど) を含むすべてのデータは、テキストと組み合わせる前に HindSight 言語の再ラベル付けプロセスを通過する必要があります。
このプロセスでは、アノテーターは長いロボットのビデオを見て、できるだけ多くの動作を特定し、各動作の開始時間と終了時間をマークし、無制限の形式の自然言語を使用して説明する必要があります。それぞれの断片。
最も重要なことは、以前の一連のブートストラップと比較して、トレーニングに使用されるすべてのスキルが、研究者によって事前に設定されるのではなく、データ自体からボトムアップで明らかにされることです。明確な。
研究者らは、学習方法とアーキテクチャを可能な限りシンプルにすることを意図して作成しました。ロボット ポリシー ネットワークは、5 Hz ビデオを組み合わせたクロスアテンション トランスフォーマーです。 5 Hz のロボットの動きにマッピングすると、ターゲットは補助損失なしで標準の教師あり学習動作を使用して複製されます。
テスト中、新しい自然言語コマンドは、最大 5 Hz の速度で音声テキスト変換を介してポリシー ネットワークに送信できます。
オープンソース ベンチマーク
アノテーション プロセス中に、研究者らは、言語コマンドの自然なデモンストレーションの 440,000 を超える実際のロボット実行と 180,000 を超えるシミュレートされたロボット実行を含む言語テーブル データセットを収集しました。 、およびデモンストレーション中にロボットが実行する一連のアクション。
これは、現在最大の言語条件付きロボット デモンストレーション データ セットでもあり、直接的には一桁改善されています。
Language-Table は、モデルの選択や、さまざまな方法で訓練されたロボットの命令実行能力の評価に使用できるシミュレーション学習ベンチマークを開始しました。
リアルタイム言語行動学習
研究者らは実験で、ロボットがリアルタイムで入力された自然言語命令に従うことができる場合に特に強力であることを発見しました。
研究者らは、プロジェクトのウェブサイトで、ユーザーが自然言語のみを使用して長期的な問題を解決するために複雑な長期シーケンスを通じてロボットを誘導できることを実証しており、これは正確な協調制御の目標である。
たとえば、テーブル上にたくさんのブロックがある場合、コマンドは「緑色の目でスマイリーフェイスを作成する」または「それらを配置する」のようになります。すべて縦線「上」など。
ロボットは公開語彙言語に従うように訓練されているため、実験ではロボットが「ゆっくり右に」など、さまざまな言葉による修正に反応することが確認されました。 」。
最後に、研究者らは、ロボットのデータ収集をより効率的にするなど、リアルタイム言語の利点を調査しました。人間のオペレーターが音声言語を使用して 4 台のロボットを制御できる可能性があります。将来的には、各ロボットにアノテーターを装備することなく、ロボットのデータ収集を拡張できます。
結論
プロジェクトは現在、デスクトップ上のオブジェクトの固定セットに限定されていますが、対話型言語の実験結果は、大規模な模倣学習が実際に本物の学習を生み出すことができることを最初に示しています。時間インタラクティブ 自由形式のエンドユーザー コマンドに従うことができるボット。
物理ロボットのリアルタイム言語制御技術の進歩を促進するために、研究者たちは Language-Table をオープンソース化しました。これは、現在最大の実世界のロボット デモンストレーション データ セットに基づいています。言語条件に関連するシミュレーション ベンチマークとしても使用できます。
研究者らは、このデータセットの役割がロボット制御の分野に限定されるだけでなく、言語や動作の条件付きビデオ予測、ロボットビデオの研究にも使用できる可能性があると考えています。条件付き言語モデリングは、より広範な機械学習のコンテキストにおける他の多くの興味深い活発な問題を研究するための新しい出発点を提供します。
以上がGoogle ロボットは 93.5% の精度で対話型言語を実現し、オープンソース データの量は 10 倍に増加します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









DeepSeekは、特定のデータベースまたはシステムでのみ検索する独自の検索エンジンであり、より速く、より正確です。それを使用する場合、ユーザーはドキュメントを読み、さまざまな検索戦略を試し、ユーザーエクスペリエンスに関するヘルプを求めてフィードバックを求めて、利点を最大限に活用することをお勧めします。

この記事では、SESAME Open Exchange(gate.io)Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

Gate.ioは、幅広い暗号資産と取引ペアを提供する主要な暗号通貨交換です。 gate.ioの登録は非常に簡単です。公式ウェブサイトにアクセスするか、「登録」をクリックし、登録フォームに入力し、電子メールを確認し、2因子検証(2FA)を設定する必要があります。登録を完了します。 gate.ioを使用すると、ユーザーは安全で便利な暗号通貨取引体験を楽しむことができます。

Binance Webサイトログインポータルの最新バージョンにアクセスするには、これらの簡単な手順に従ってください。公式ウェブサイトに移動し、右上隅の[ログイン]ボタンをクリックします。既存のログインメソッドを選択してください。「登録」してください。登録済みの携帯電話番号または電子メールとパスワードを入力し、認証を完了します(モバイル検証コードやGoogle Authenticatorなど)。検証が成功した後、Binance公式WebサイトLogin Portalの最新バージョンにアクセスできます。

ログインステップやパスワード回復プロセスなど、セサミオープンエクスチェンジWebバージョンのログイン操作の詳細な紹介も、ログイン障害、ページを開くことができず、プラットフォームにスムーズにログインするのに役立つ検証コードを受信できません。
