コンピューター ビジョンや自然言語処理など、機械学習 (ML) 研究の複数のサブフィールドにおける最近の進歩の多くは、すべてのデータを効率的に吸収できる大規模で多様なデータ セットと表現を活用することに基づいて構築されています。 。
ただし、この高性能モデル手法は、ロボット工学の分野ではあまり応用されていません。
理由は簡単で、第一に、大規模かつ多様なロボット データが不足しているため、モデルがロボットの幅広い経験を吸収する能力が制限されます。
第 2 に、このようなデータセットから学習して効果的に一般化できる、表現力が高く、スケーラブルで、十分に高速なリアルタイム推論モデルが不足しています。
今回、Google の Robotics Transformer 1 (略して RT-1) は、ロボットの入出力アクション (カメラ画像、タスクの指示、モーターなど) をラベル付けできるマルチタスク モデルです。コマンド) を使用して、実行時の効率的な推論を可能にし、リアルタイム制御を可能にします。
#RT-1 は、ロボットがさまざまな環境でさまざまなタスクを実行できるようにするために大量のデータを吸収し、それによって機械を改善しますパフォーマンスと汎用性 能力
簡単に言えば、ロボットに複数の仕事を同時に実行させることを意味します。
モデルは、Everyday Robots (EDR) の 13 台のマシンを使用して、700 以上のタスクをカバーする 130,000 のエピソードを含む大規模な現実世界のロボット データセットでトレーニングされました。ロボットは一定の期間にわたって収集されました。 17か月の。
結果は、RT-1 が既存の手法と比較して、新しいタスク、環境、オブジェクトに対するゼロショットの一般化を大幅に改善できることを示しています。
編集者は慎重に以下に Github リンクを設置しましたので、ご興味がございましたら、ぜひご覧ください。
https://github.com/google-research/robotics_transformer# # RT-1 モデル固有の原理
RT-1 は Transformer アーキテクチャに基づいて構築されており、ロボットのカメラから画像履歴を取得し、自然言語で表現されたタスクの説明を入力として受け取り、出力することができます。トークン化されたアクション。RT-1 のアーキテクチャは、因果マスキングを使用した標準的なカテゴリカルクロスエントロピー目標に対してトレーニングされたデコーダのみのシーケンス モデルのアーキテクチャと似ています。
モデルは入力テキスト命令と一連の画像を受け取り、事前トレーニングされた FiLM EfficientNet モデルを通じてトークンにエンコードします。 TokenLearner を介して圧縮し、Transformer を介してアクション タグを出力します。
その主な機能には、画像トークン化、アクショントークン化、トークン圧縮が含まれます。
人間による遠隔操作によるデモンストレーションと、各ロボットの実行命令のテキストによる説明を使用します。 1つのエピソードに注釈を付けます。
このロボットは、「7 自由度のアーム、2 本指のグリッパー、および可動ベース」に依存してタスクを実行します。
データセットで表現されている一連の高度なスキルには、アイテムの選択と配置、引き出しの開閉、引き出しへのアイテムの出し入れ、長くて薄いアイテムを直立させて保持すること、および裏返して操作を待ちます。
RT-1 をさらに進化させるために、別のロボットから収集したデータを使用して RT-1 をトレーニングし、(1) モデルがロボット上でパフォーマンスを発揮するかどうかをテストしました。新しいデータ ソースが提示されたときに元のタスクが維持されるかどうか、(2) 新しい異なるデータによる一般化においてモデルが改善されるかどうか。
EDR を使用して収集した元のデータセットのアクション仕様と境界に一致するように収集したデータを変換し、各データセットにタスクの指示をラベル付けします。
Kuka データは、各トレーニング バッチで 1:2 の比率で EDR データと混合され、元の EDR スキルの退行を制御します。
#写真は複数のロボットからデータを収集する場合の学習方法を示しています
# #結果は、RT-1が他のロボットを観察する経験を通じて新しいスキルを習得できることを示しています。
Kuka のビンピッキング データとロボット教室からの既存の EDR データで RT-1 がトレーニングされたとき、EDR データのみを使用してトレーニングされた場合、精度が 22% 向上しました。「ほぼ 2 倍」 39%まで。
Kuka からのピッキング データのみを使用して RT-1 をトレーニングし、EDR ロボットからのピッキング データを使用して評価した場合の精度は 0% です。
実験結果RT-1 の汎化能力をより深く理解するために、Gato、BC-Z、BC-Z XL の 3 つのベースラインに対するパフォーマンスを調査しました (つまり、RT-1 と同じ数のパラメーターを持つ BC-Z)。
そしてそれを 4 つのカテゴリに分けます:
写真はテスト環境を示しています パフォーマンスRT-1 と対照群の #
RT-1 の高いパフォーマンスと汎用化機能により、SayCan を介した長距離のモバイル操作タスクが可能になります。
SayCan は、ロボットのアフォーダンス内に言語モデルを配置し、少数のプロンプトを使用して、自然言語を表現するという長期的なタスクを一連の低レベルのスキルに分解することで機能します。 。
RT-1 と他の 2 つのベースライン (Gato を使用した SayCan および BC-Z を使用した SayCan) を使用して、2 つの実際のキッチンで SayCan を評価しました。
以下の「キッチン 2」は、「キッチン 1」よりも困難な一般化シナリオを示しています。ほとんどのトレーニング データの収集に使用されるシミュレートされたキッチンは、Kitchen1 をモデルにしています。
Kitchen1 の RT-1 を使用した SayCan の実行成功率は 67% であり、他のベースラインよりも優れていることがわかります。
SayCan with Gato および SayCan with BCZ のパフォーマンスは、新しい目に見えないキッチンによって引き起こされる汎化の困難により低下しましたが、それに応じて RT-1 の成功率は低下しませんでした。
以上がGoogle RT-1 モデルはロボットに複数のジョブを依頼し、700 件の命令の成功率は 97% でしたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。