なぜロボット工学は、自然言語処理 (NLP)、視覚、その他の人工知能分野に大きく遅れをとっているのでしょうか?さまざまな問題の中でも特に、データ不足が主な理由です。この問題を解決するために、Google DeepMind とその他の機関はオープン X-Embodiment データセットを立ち上げ、より強力な RT-X モデルのトレーニングに成功しました
#大型モデルの躍進が続く2023年、大型モデルを頭脳として操作を支援する身体性知能ロボットの研究も急速に進んでいます。
2 か月以上前、Google DeepMind はロボットを制御するための最初のビジョン言語アクション (VLA) モデル
当時、Google 幹部は、RT-2 はロボットの構築とプログラミングの方法において大きな進歩であると述べました。 「この変更により、私たちは研究計画全体を再考する必要がありました。」
さらに驚くべきことは、まだ 2 か月以上しか経っていないということです。DeepMind のロボット モデルは改善されました再び実行すると、2 倍の速さで改善されました。
ロボットは通常、特定のことを行うことに非常に特化していますが、一般的な能力は貧弱であることがわかっています。通常、タスク、ロボット、環境ごとにモデルをトレーニングする必要があります。変数を変更するには、多くの場合、最初からやり直す必要があります。しかし、さまざまなロボット工学分野の知識を組み合わせて、万能ロボットを訓練する方法を作成できたらどうなるでしょうか?
これは、DeepMind がしばらくの間取り組んできたことです。彼らは、22 種類の異なるロボットからのデータをプールして Open X-Embodiment データセットを作成し、より高性能な RT-X (それぞれ RT-1-X と RT-2-X) をトレーニングしました。
彼らは 5 つの異なる研究機関で RT-1-X モデルをテストし、その結果、新しい方法がロボットごとに個別に開発された方法よりも優れたパフォーマンスを示したことがわかりました。一般的に使用される 5 種類のロボット間で成功率が 50% 増加しました。また、上記のデータセットでトレーニングされた RT-2-X が現実世界のロボット スキルのパフォーマンスを 2 倍向上させ、新しいデータを学習することで RT-2-X が多くの新しいスキルを習得することも示しています。この研究は、複数のロボット タイプのデータでトレーニングされた単一のモデルが、単一のロボット タイプのデータでトレーニングされたモデルよりも複数のロボット上で大幅に優れたパフォーマンスを発揮することを示しています。 この研究は DeepMind が独自に完了したものではなく、33 の学術研究室との協力の結果であることは言及する価値があります。彼らは、オープンかつ責任ある方法でこのテクノロジーを開発することに尽力しています。 現在、Open X-Embodiment データセットと RT-1-X モデル チェックポイントは、幅広い研究コミュニティが利用できます。 Nvidia の上級人工知能科学者であるジム ファン氏は、今日がロボットにとって ImageNet の瞬間になるかもしれないと述べました。
Google の研究者 Karol Hausman も同じため息をつきました。ImageNet におけるロボットの瞬間がついに到来しました。
オープンが重要な役割を果たしました。 ImageNet がコンピューター ビジョンの研究を進歩させたのと同じように、Open X-Embodiment もロボット工学を進歩させました。 多様なデータ セットの構築は、常にユニバーサル モデルをトレーニングするための鍵でした。これらのトレーニングされたモデルは、さまざまな種類のロボットを制御し、さまざまな指示に従い、複雑なタスクを実行できます。基本的な推論を実行し、効率的に一般化します。ただし、このようなデータセットを収集することは、単一の研究室にとってリソースを大量に消費することになります。
この目的を達成するために、DeepMind は 33 機関の学術研究機関と協力して Open X-Embodiment データセットを構築しました。彼らは、500 を超えるスキルと 150,000 のタスクにおけるロボットのパフォーマンスを実証する 100 万以上のクリップにわたる 22 のロボット インスタンスからデータを収集しました。このデータセットは、この種のロボット データセットの中で最も包括的なものです。
RT-1-X: 成功率が 50% 増加しました
RT-X は、2 つのロボットトランス (RT) モデルに基づいて構築されています。
具体的には、RT-1 を使用して RT-1-X をトレーニングしました。RT-1 は、Transformer アーキテクチャ上に構築された 35M パラメータ ネットワークであり、ロボット制御用に設計されています。設計を図 3 に示します。 さらに、彼らは、インターネット規模で実行される一連の大規模視覚言語アクション モデル (VLA) である RT-2 で RT-2-X をトレーニングしました。ロボット制御データだけでなく、視覚データや言語データも対象となります。
RT-1-X を評価するために、DeepMind はドアを開けるなどの特定のタスクで開発されたモデルと比較しました。結果は、Open X-Embodiment データセットを使用してトレーニングされた RT-1-X が、元のモデルよりも平均で 50% 優れていることを示しています。
RT-1-X の平均成功率は、元の方法より 50% 高くなります。 ## RT-1-X に関するさまざまな協力機関によるシリーズ -X: 新しいスキルのバリアフリーのロック解除
順番にRT-X の知識伝達機能を研究するために、DeepMind は他の実験を実施しました。これらの実験には、RT-2 データセットには存在しないが、別のロボットのデータセットには存在していたオブジェクトとスキルが含まれていました。その結果、RT-2-X は、以前の最高のモデルである RT-2 に比べて、新しいスキルの習得に 3 倍成功していることがわかりました。これは、他のプラットフォームからのデータを使用した共同トレーニングにより、元のデータセットには存在しない追加のスキルを RT-2-X に与え、新しいタスクを実行できることも示しています。 #一連の結果は、RT-2-X が、空間理解のより適切な処理など、RT-2 では以前は達成できなかったスキルを達成していることを示しています。 。たとえば、目標要件を達成するために、ロボットに「リンゴを布の近くに移動してください」と依頼する場合と、ロボットに「リンゴを布に移動してください」と依頼する場合、ロボットはまったく異なる軌道をたどります。前置詞を「near」から「on」に変更するだけで、ロボットが実行するアクションを調整できます。
RT-2-X は、他のロボットからのデータを RT-2-X トレーニングに組み込むことでロボットのタスクのパフォーマンス範囲を向上できることを示していますが、これは十分に高いデータを使用した場合に限られます。容量アーキテクチャ。
##ロボット研究は、刺激的な初期段階にあります。 DeepMind によるこの新しい研究は、より多様なデータとより優れたモデルを使用して学習を拡張することで、より有用な支援ロボットを開発できる可能性があることを示しています。オープンかつ責任ある方法でロボット研究を進めるには、世界中の研究室と協力してリソースを共有することが重要です。 DeepMind は、データ ソースをオープンし、安全だが限定的なモデルを提供することで障壁を減らし、研究を加速したいと考えています。ロボット工学の未来は、ロボットが相互に学習すること、そして最も重要なこととして、研究者が相互に学習できるかどうかにかかっています。 この研究は、モデルがさまざまな環境で一般化できること、そしてそのパフォーマンスが Google DeepMind のロボットでも、世界中のさまざまな大学のロボットでも一貫していることを証明しています。大幅に改善されました。将来の研究では、これらの進歩を RoboCat の自己改善特性と組み合わせて、モデルが自身の経験に基づいて継続的に改善できるようにする方法を探求する可能性があります。もう 1 つの将来の方向性は、異なるデータセットの混合が身体を超えたエージェントの一般化にどのような影響を与えるか、またこの一般化がどのように達成されるかをさらに調査することです。
RT-X について詳しく知りたい場合は、DeepMind が発行したこの論文を参照してください:
論文リンク: https://robotics-transformer-x.github.io/paper.pdfプロジェクト リンク: https://robotics-transformer - x.github.io/
- 参考リンク: https://www.deepmind.com/blog/scaling -さまざまな種類のロボットを対象とした学習
#
以上が深層学習の巨人 DeepMind は ImageNet データセットで画期的な進歩を遂げ、ロボット研究に新たなマイルストーンをもたらしましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。