iVideoGPT は、ワールド モデルの高度なインタラクティブ性のニーズを満たします。
生成モデルは近年大きく進歩しており、その中でもビデオ生成は新たなフロンティアとなりつつあります。これらの生成ビデオ モデルの重要な用途は、予測世界モデルを構築するために、インターネット規模の多様なデータを教師なしで学習することです。これらの世界モデルは、世界がどのように機能するかについての常識的な知識を蓄積し、エージェントの行動に基づいて潜在的な将来の結果を予測できるようにすると期待されています。 これらの世界モデルを活用することで、強化学習を使用するエージェントは、世界モデル内で想像、推論、計画を立てることができ、それにより、少量の実験で現実世界でより安全かつ効果的に新しいスキルを習得できます。 生成モデルと世界モデルの間には基本的な関係があるにもかかわらず、ビデオ生成のための生成モデルとエージェント学習のための世界モデルの開発の間には依然として大きなギャップがあります。主な課題の 1 つは、対話性とスケーラビリティの間で最適なバランスをどのように達成するかです。 モデルベースの強化学習の分野では、ワールドモデルは主にリカレントネットワークアーキテクチャを使用します。この設計では、各ステップのアクションに基づいて観察または潜在状態を渡すことができるため、対話型の行動学習が促進されます。ただし、これらのモデルは主にゲームまたはシミュレーション環境に焦点を当てており、データは単純であり、大規模で複雑な実際のデータをモデル化する能力は限られています。 対照的に、インターネット規模のビデオ生成モデルは、テキストによる説明や将来のアクションシーケンスで制御できる現実的な長いビデオを合成できます。このようなモデルでは、高レベルの長期計画が可能ですが、その軌跡レベルの対話性では、基本的なスキルとして正確な行動を効果的に学習するための十分な粒度がエージェントに提供されません。 清華大学、ファーウェイ・ノアの方舟研究所、天津大学の研究者らは、iVideoGPT (Interactive VideoGPT) を提案しました。これは、マルチモーダル信号 (視覚的観察、アクション、報酬) を組み合わせたスケーラブルな自己回帰 Transformer フレームワークであり、一連のトークンを使用して、エージェントが次のトークンを予測することでインタラクティブなエクスペリエンスを実行できるようにします。 iVideoGPT は、新しい圧縮トークン化テクノロジーを使用して、高次元の視覚的観測を効果的に離散化します。スケーラブルなアーキテクチャを活用することで、研究者は何百万もの人間とロボットの操作軌跡で iVideoGPT を事前トレーニングすることができ、それによってさまざまな下流タスクのインタラクティブな世界モデルとして使用できる汎用性の高い基盤を確立できました。この研究は、インタラクティブな普遍世界モデルの開発を促進します。
- 論文アドレス: https://arxiv.org/pdf/2405.15223
- 論文タイトル: iVideoGPT: インタラクティブ VideoGPT はスケーラブルな世界モデルです
このパートでは、研究チームはスケーラブルな世界モデル アーキテクチャである iVideoGPT を紹介します。これは非常に柔軟で、視覚的な観察、アクション、報酬、その他の潜在的な入力を含むマルチモーダル情報を統合できます。 iVideoGPT のコアには、ビデオ フレームを離散化するための圧縮トークナイザーと、後続のトークンを予測するための自己回帰変換器が含まれています。多様なビデオ データで事前トレーニングすることにより、モデルは広範な世界の知識を取得し、下流のタスクに効率的に転送できます。 圧縮トークン化。 Transformer は、離散トークン シーケンスで特にうまく機能します。 VQGAN は、生のピクセルを個別のトークンに変換する、一般的に使用されるビジュアル トークナイザーです。研究者らは、ビデオをトークン化するために、デュアル エンコーダーとデコーダー {(E_c, D_c), (E_p, D_p)} で構成される新しい条件付き VQGAN を使用することを提案しました。 以上が清華大学、ファーウェイなどが iVideoGPT を提案:インタラクティブな世界モデルに特化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。