インターネット データでトレーニングされた生成モデルは、テキスト、画像、ビデオ コンテンツの作成方法に革命をもたらします。研究者の中には、おそらく生成モデルの次のマイルストーンは、道路での車の運転方法や食事の準備方法など、世界における人間の経験のあらゆる側面をシミュレートできる機能になるだろうと予測する人もいます。
現在、非常に包括的な現実世界シミュレーターの助けを借りて、人間はさまざまなシーンやオブジェクトと対話することができ、ロボットも疑似体験から学習することができ、これにより物理的損傷のリスクを回避できます。 。
しかし、このような現実世界のシミュレーターを構築する際の大きな障害の 1 つは、利用可能なデータ セットにあります。インターネット上には何十億ものテキスト、画像、ビデオ クリップが存在しますが、さまざまなデータ セットがさまざまな軸の情報をカバーしているため、世界の現実的な体験をシミュレートするには、これらのデータ セットを統合する必要があります。たとえば、ペアのテキスト画像データには豊富なシーンとオブジェクトが含まれますが、アクションはほとんど含まれません。ビデオの字幕と質問と回答のデータには、豊富な高レベルのアクティビティの説明が含まれますが、低レベルのモーションの詳細はほとんど含まれません。人間のアクティビティ データには、豊富な人間のアクションが含まれますが、アクションはほとんどありません。機械的な動き、ロボットデータには豊富なロボットの動きが含まれていますが、その数は限られています
上記の情報の違いは自然なものであり、克服するのが難しいため、目的に合わせて設計されたシステムを構築することが困難になります。キャプチャ 現実世界のシミュレーターは、現実世界の体験に困難をもたらします。
この記事では、カリフォルニア大学バークレー校、Google DeepMind、MIT およびその他の機関の研究者が、生成モデルを通じて現実世界のインタラクションを学習するユニバーサル シミュレーターである UniSim を調査し、ユニバーサルシミュレーターの第一歩。たとえば、UniSim は、「引き出しを開ける」などの高レベルの命令と、低レベルの命令の視覚的な結果をシミュレートすることで、人間とエージェントが世界とどのように対話するかをシミュレートできます。
この論文では、大量のデータ (インターネットのテキストと画像のペア、ナビゲーションからの豊富なデータ、人間の活動、ロボットの動作など、シミュレーションやレンダリングからのデータを含む) を組み合わせて条件付きビデオ生成を行います。フレームワーク。次に、この論文は、さまざまな軸に沿って豊富なデータを慎重に調整することによって、UniSim がデータのさまざまな軸からのエクスペリエンスをうまく統合し、データを超えて一般化して、静的なシーンとオブジェクトのきめ細かいモーション制御を通じて豊かなインタラクションを可能にすることを示しています。
次のビデオは、UniSim が長いインタラクション期間を持つ例をシミュレートする方法を示しています。このビデオでは、UniSim が 8 つのロボット動作命令を一度にシミュレートすることを示しています。 UniSim の人間の行動のシミュレーション:
UniSim の RL 戦略のシミュレーション展開は次のとおりです:
Meta のチーフ AI サイエンティスト、Yann LeCun 氏、NVIDIA 上級研究員の Jim Fan 氏、およびその他の業界専門家がこの調査を進めました。 LeCun 氏は本作に「クール」という評価を付けました
Jim Fan 氏はこの作品がとても興味深いと述べています。ビデオ拡散モデルはデータ駆動型の物理シミュレーションとして使用され、エージェントはロボット ハードウェアに触れたり損傷を与えたりすることなく、最適なアクションを計画、探索、学習できます。 LLM は単なるオペレーティング システムではなく、完全な現実シミュレータであると言えます。
この論文の最初の著者は、博士号を取得しています。カリフォルニア大学バークレー校の学生シェリー・ヤン氏は、「現実世界のモデルの学習が現実になりつつあります。」
と述べました。
図 3 に示すように、UniSim は、手を洗う、ボウルを持つ、切るなど、キッチン シーンでの一連の豊富なアクションをシミュレートできます。ニンジンと手を乾燥させます。図 3 の右上にはさまざまなスイッチが示されており、図 3 の下部には 2 つのナビゲーション シナリオが示されています。
書き直す必要がある内容は次のとおりです。対応図 3 の右下のナビゲーション シーン
がナビゲーション シーン
に対応します。上の図 3 の右下隅にある図 4 は、8 つの相互作用を順番に自己回帰的にシミュレーションする UniSim の例を示しています。 ##UniSim は、リッチなアクションをサポートするだけでなく、長距離インタラクションにより、非常に多様でランダムな環境変化を実現することもできます。たとえば、一番上のタオルを取り除いた後、表示されるオブジェクトには多様性があります (下の図 5 左を参照)
UniSim Real World Migration の結果。 UniSim の真の価値は現実世界をシミュレートすることにあり、図 7 は、VLM によって生成された言語プラン、言語プランに基づいて UniSim によって生成されたビデオ、および実際のロボットでの実行を示しています。
UniSim の移行機能を現実世界でテストすることに加えて、この記事ではシミュレーター ベースの評価も実施しました。結果を表 2 に示します。 :
強化学習用の実世界シミュレーター
この実験では、現実世界をシミュレートする UniSim の能力も評価します。 -world ロボットはさまざまなアクションをどの程度うまく実行しますか? ロボットは、約 20 ~ 30 ステップの低レベルの制御操作を繰り返し実行することによって、エンドポイントを左右上下に移動します。表 3 は、RL トレーニングにより、さまざまなタスク、特に青いブロックを指すようなタスクで VLA ポリシーのパフォーマンスが大幅に向上することを示しています。次に、図 8 (下の行) に示すように、UniSim でトレーニングされたゼロショット RL ポリシーを実際のロボットに直接展開します。
以上が生成モデルはインタラクティブな現実世界のシミュレーターを構築します。LeCun 氏はこれが非常に素晴らしいと考えています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。