#ロボット工学の分野では、一般的なロボット戦略の実装には大量のデータが必要であり、現実世界でこのデータを収集するのは時間と労力がかかります。シミュレーションは、シーン レベルおよびインスタンス レベルでさまざまな量のデータを生成するための経済的なソリューションを提供しますが、シミュレートされた環境でタスクの多様性を高めるには、依然として大量の人員が必要となるため (特に複雑なタスクの場合) 課題に直面しています。その結果、典型的な人工シミュレーション ベンチマークには、通常、数十から数百のタスクしか含まれていません。
どうすれば解決できますか?近年、大規模な言語モデルは、さまざまなタスクの自然言語処理とコード生成において大幅な進歩を続けています。同様に、LLM は、ユーザー インターフェイス、タスクと動作計画、ロボット ログの概要、コストと報酬の設計など、ロボット工学のさまざまな側面に適用されており、物理ベースのタスクとコード生成タスクの両方で強力な機能を明らかにしています。
最近の研究では、MIT CSAIL、上海交通大学、その他の機関の研究者が、LLM を使用して多様なシミュレーション タスクを作成し、その能力をさらに調査できるかどうかをさらに調査しました。
具体的には、研究者らは LLM ベースのフレームワーク GenSim を提案しました。これは、タスク資産の配置とタスクの進捗状況を設計および検証するための自動メカニズムを提供します。さらに重要なことは、生成されたタスクは非常に多様性を示し、ロボット戦略のタスクレベルの一般化を促進します。さらに、概念的には、GenSim を使用すると、LLM の推論およびエンコード機能が、シミュレートされたデータの中間合成を通じて言語-視覚-アクション戦略に洗練されます。
論文アドレス: https://arxiv.org/pdf/2310.01361.pdf
#GenSim フレームワークは、次の 3 つの部分で構成されます。
以下の図 1 では、研究者が手動で厳選した 10 個のタスクを含むタスク ライブラリを初期化し、GenSim を使用してそれを拡張し、100 個を超えるタスクを生成しました。
研究者らは、生成されたシミュレーション タスクの品質を段階的に測定するためにいくつかのカスタマイズされた指標も提案し、いくつかの LLM が評価されました。目標に向けた探索的な設定で。 GPT-4 によって生成されたタスク ライブラリについては、GPT-3.5 や Code-Llama などの LLM に対して教師あり微調整を実行し、LLM のタスク生成パフォーマンスをさらに向上させました。同時に、タスクの達成可能性は戦略トレーニングを通じて定量的に測定され、さまざまな属性のタスク統計とさまざまなモデル間のコード比較が提供されます。
それだけでなく、研究者らは、人間の計画タスクのみでトレーニングされたモデルと比較して、すべての生成タスクで良好なパフォーマンスを発揮するマルチタスク ロボット戦略もトレーニングしました。 。 GPT-4 生成タスクを使用した共同トレーニングにより、汎化パフォーマンスが 50% 向上し、ゼロショット タスクの約 40% をシミュレーション内の新しいタスクに転送できます。
最後に、研究者らはシミュレーションから現実への移行も検討し、さまざまなシミュレーション タスクでの事前トレーニングによって現実世界の汎化能力が 25% 向上する可能性があることを示しました。
要約すると、さまざまな LLM によって生成されたタスクでトレーニングされた戦略は、新しいタスクに対するより優れたタスク レベルの一般化機能を実現し、LLM の拡張シミュレーション タスクの可能性を通じて基本戦略をトレーニングできることを示しています。
Tenstorrent AI 製品管理ディレクターの Shubham Saboo 氏は、この研究を高く評価し、GPT-4 などの LLM を使用して自動操縦でロボットを生成する、GPT-4 とロボットを組み合わせた画期的な研究であると述べました。一連のシミュレートされたロボット タスクにより、ゼロサンプル学習とロボットの実世界への適応が実現します。
下の図 2 に示すように、GenSimフレームワーク パス プロシージャル合成は、シミュレーション環境、タスク、およびデモンストレーションを生成します。 GenSim パイプラインはタスク作成者から開始され、プロンプト チェーンはターゲット タスクに応じて、目標指向モードと探索モードの 2 つのモードで実行されます。 GenSim のタスク ライブラリは、以前に生成された高品質のタスクを保存するために使用されるメモリ内コンポーネントであり、タスク ライブラリに保存されたタスクは、マルチタスク ポリシーのトレーニングや LLM の微調整に使用できます。
#Task Creator
タスク ライブラリ タスク ライブラリは、タスク作成者に説明生成フェーズの条件として以前のタスクの説明を提供し、コード生成フェーズに以前のコードを提供し、タスク作成者にプロンプトを表示します。タスク ライブラリ 新しいタスクを作成するための例として参照タスクを選択します。タスクの実装が完了し、すべてのテストに合格すると、LLM は新しいタスクとタスク ライブラリを「反映」し、新しく生成されたタスクをライブラリに追加するかどうかについて包括的な決定を下すように求められます。 #以下の図 4 に示すように、この研究では、GenSim が興味深いタスクレベルの組み合わせと外挿動作を示していることも観察されました。 LLM 教師ありマルチタスク戦略 タスクが生成された後、調査ではこれらのタスク実装を使用してShridhar et al. (2022) と同様のデュアルストリーム伝送ネットワーク アーキテクチャを使用して、データをデモンストレーションし、運用戦略をトレーニングします。 以下の図 5 に示すように、この研究では、プログラムをタスクと関連するデモンストレーション データの効果的な表現とみなして (図 5)、タスク間の埋め込みスペースとその埋め込みスペースを定義できます。距離インデックス オブジェクトの姿勢や形状など、知覚から派生するさまざまな要因に対してより堅牢です。
#実験と結果 LLM ロボット シミュレーション タスクの汎化能力の評価 以下の図 6 に示すように、探索モードの場合ガイド モードのタスク生成、少数のサンプルとタスク ライブラリを使用した 2 段階のプロンプト チェーンにより、コード生成の成功率を効果的に向上させることができます。
#タスク レベルの一般化 関連タスクの少数サンプル戦略の最適化。以下の図 7 の左側からわかるように、LLM によって生成されたタスクを共同トレーニングすると、特にデータ量が少ない状況 (5 つのデモなど) で、元の CLIPort タスクのポリシーのパフォーマンスが 50% 以上向上します。 ゼロショット ポリシーを目に見えないタスクに一般化します。図 7 からわかるように、LLM によって生成されたより多くのタスクで事前トレーニングすることにより、モデルは元の Ravens ベンチマークのタスクに対してより適切に一般化できます。図 7 の中央右では、研究者らはまた、手動で作成されたタスク、クローズドソース LLM、オープンソースの微調整された LLM を含む、異なるタスク ソースで 5 つのタスクを事前トレーニングし、同様のゼロショット タスク レベルを観察しました。一般化。
##事前トレーニングされたモデルを現実世界に適応させる 研究者は、シミュレーション環境で訓練された戦略を現実の環境に移しました。結果は以下の表 1 に示されており、GPT-4 で生成された 70 個のタスクで事前トレーニングされたモデルは、9 個のタスクで 10 回の実験を実施し、平均成功率 68.8% を達成しました。これは、CLIPort タスクのみで事前トレーニングした場合よりも優れています。ベースライン モデルと比較すると 25% 以上改善され、わずか 50 のタスクで事前トレーニングされたモデルと比較すると 15% 改善されました。
研究者らは、さまざまなシミュレーション タスクでの事前トレーニングにより、長期にわたる複雑なタスクの堅牢性が向上することも観察しました。たとえば、GPT-4 の事前トレーニングされたモデルは、実際のビルドホイール タスクでより堅牢なパフォーマンスを示します。
#アブレーション実験
#タスク統計を生成します。以下の図 9 (a) では、研究者は、LLM によって生成された 120 個のタスクのさまざまな機能のタスク統計を示しています。 LLM モデルによって生成される色、アセット、アクション、およびインスタンスの数の間には、興味深いバランスがあります。たとえば、生成されたコードには、7 つを超えるオブジェクト インスタンスを含む多くのシーンに加えて、ピック アンド プレイスのプリミティブ アクションやブロックなどのアセットが多数含まれています。 コード生成の比較。以下の図 9(b) では、研究者は GPT-4 と Code Llama のトップダウン実験で失敗したケースを定性的に評価しています。
#技術的な詳細については、元の論文を参照してください。 #メソッドの紹介
この研究では、実験を使用して GenSim を検証します。 (1) LLM は、シミュレーション タスクの設計と実装においてどの程度効果的ですか? GenSim はタスク生成における LLM のパフォーマンスを向上させることができますか? (2) LLM によって生成されたタスクに関するトレーニングは、ポリシーの一般化能力を向上させることができますか?より多くの生成タスクを与えれば、ポリシー トレーニングのメリットはさらに大きくなるでしょうか? (3) LLM で生成されたシミュレーション タスクの事前トレーニングは、現実世界のロボット ポリシーの展開に有益ですか?
以上が言語、ロボット破壊、MIT などは GPT-4 を使用してシミュレーション タスクを自動的に生成し、現実世界に移行します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。