ワンクリックでプレイ可能なゲームワールドを生成します。
公開されてからまだ 2 週間しか経っていませんが、Google の世界モデルも登場し、その機能はさらに強力になっているようです。それが生成する仮想世界は「自律的で制御可能」です。 たった今、Google は生成 AI の新しいパラダイム、生成的インタラクティブ環境 (Genie) を定義しました。 Genie は、1 つの画像プロンプトからプレイ可能なインタラクティブな環境を生成できる 110 億パラメータのベース ワールド モデルです。
私たちは、これまで見たことのない画像でそれを促し、私たちの想像力の仮想世界と対話することができます。
合成画像、写真、さらには手描きのスケッチであっても、Genie はそれらから無限の再生可能な世界を生成できます。
Genie は、フレームの各ペア間の潜在的なアクションを推測する潜在アクション モデル、生のビデオ フレームを個別のトークンに変換するビデオ トークナイザー、および指定されたビデオの次のフレームを予測する動的モデルの 3 つの部分で構成されます。潜在的なアクションと過去のフレーム トークン。
このテクノロジーのリリースを見て、多くの人がこう言いました。Google が再び AI テクノロジーをリードすることになるでしょう。
Google はまた、Genie によって学習された潜在的なアクションを人間が設計した実際の環境に転送できることを提案しています。この仮説に基づいて、Google はロボット工学分野での潜在的なワールド モデル アプリケーションの概念実証として、ロボット ビデオで Genie モデルをトレーニングしました。
ゲーム、デザイン、XR、ロボット産業の破壊…
私たちは Genie の革命的な重要性を 4 つの次元から理解できます。
まず、Genie はアクション タグなしでコントロールを学習できます。
具体的には、Genie は、アクション ラベル データなしで、多数の公開インターネット ビデオ データ セットを使用してトレーニングされます。
インターネット ビデオには、どのアクションが実行されているか、画像のどの部分を制御する必要があるかについてのラベルがないことが多いため、これは困難でした。しかし、Genie は特にインターネット ビデオから詳細な制御を学習することができます。
Genie の場合、観察のどの部分が一般的に制御可能であるかを理解するだけでなく、生成された環境で一貫したさまざまな潜在的なアクションを推測します。同じ基礎となるアクションが、異なるプロンプト画像でどのように同様の動作を生成するかに注目してください。
第二に、Genie は次世代の「クリエイター」を育成できます。
たった 1 つの画像でまったく新しいインタラクティブな環境を作成すると、仮想世界を生成して仮想世界に入るさまざまな新しい方法への扉が開きます。たとえば、最先端のテキスト生成画像モデルを使用して開始フレームを生成し、Genie と連携して動的なインタラクティブ環境を生成できます。
次のアニメーションでは、Google は Imagen2 を使用して画像を生成し、それを Genie を使用して現実に変えています:
Genie はそれ以上のことができ、ヒューマン デザイン関連の創造的な分野にも応用できます。スケッチ。
または、現実世界の画像に適用すると:
繰り返しになりますが、Google は Genie が汎用インテリジェンスを実現するための基礎であると信じています。これまでの研究では、ゲーム環境は AI エージェント開発の効果的なテストベッドとなり得るが、多くの場合、利用可能なゲームの数によって制限されることが示されています。
Genie を使用すると、新しく生成された世界の無限のカリキュラムで将来の AI エージェントをトレーニングできるようになります。 Google は、Genie によって学習された潜在的なアクションを実際の人間が設計した環境に転送できるという概念実証を発表しました。
最後に、Google は、Genie は追加のドメイン知識を必要とせずに複数のドメインに適用できる一般的な方法であると述べました。
使用されるデータは 2D プラットフォーマーのゲーム プレイやロボットのビデオですが、この方法は一般的であらゆるタイプのドメインに適用でき、より大きなインターネット データ セットに拡張できます。
Google は、RT1 の動きのないビデオで小型の 25 億モデルをトレーニングしました。プラットフォーマーの場合と同様、基本的なアクションのシーケンスが同じである軌跡は、多くの場合、同様の動作を示します。
これは、Genie が一貫した行動空間を学習できることを示しており、これはロボットを訓練して一般化された身体化知能を作成するのに適している可能性があります。
テクノロジーの公開: 論文「Genie: Generative Interactive Environments」がリリースされました
Google DeepMind が Genie の論文をリリースしました。
論文アドレス: https://arxiv.org/pdf/2402.15391.pdf
プロジェクトホームページ: https://sites.google.com/view/genie-2024/home?pli= 1
この論文の共著者は中国学者のYuge (Jimmy) Shi氏を含めて6人もいる。彼女は現在、Google DeepMind の研究科学者であり、2023 年にオックスフォード大学から機械学習の博士号を取得しました。
方法の紹介
Genie アーキテクチャの複数のコンポーネントは、Vision Transformer (ViT) に基づいて構築されています。 Transformer の二次メモリのコストがビデオ分野に課題をもたらすため、ビデオには最大 ?(10^4) トークンを含めることができることに注意してください。したがって、Google はすべてのモデル コンポーネントでメモリ効率の高い ST トランスフォーマー アーキテクチャ (図 4 を参照) を使用して、モデルの容量と計算上の制約のバランスをとります。
Genie には 3 つの重要なコンポーネントが含まれています (下の図に示すように):
1) フレームの各ペア間の潜在的なアクションを推論するために使用される潜在アクション モデル (LAM)
2) ビデオ トークナイザー (トークナイザー) )、元のビデオ フレームを個別のトークンに変換するために使用されます?;
3) 潜在的なアクションと過去のフレームのトークンが与えられた動的モデルは、ビデオの次のフレームを予測するために使用されます。
具体的には:
潜在アクションモデル: 制御可能なビデオ生成を実現するために、Google は、前のフレームで行われたアクションを将来のフレーム予測の条件として使用します。ただし、このようなアクション ラベルがインターネット上のビデオで利用できることはほとんどなく、アクションの注釈を取得するコストが高くなる可能性があります。代わりに、Google は完全に監視されていない方法で潜在的なアクションを学習します (図 5 を参照)。
ビデオトークナイザー: 以前の研究に基づいて、Google はビデオを個別のトークンに圧縮して次元を削減し、より高品質のビデオ生成を実現します (図 6 を参照)。実装には、Google は VQ-VAE を使用します。これは、ビデオの ? フレーム を入力として受け取り、各フレームの離散表現 を生成します。ここで、 ? は離散潜在空間サイズです。トークナイザーは、標準の VQ-VQAE を使用してビデオ シーケンス全体でトレーニングされます。
動的モデル: デコーダー専用の MaskGIT トランスフォーマーです (図 7)。
Genieの推論プロセスは次のとおりです
実験結果
拡張結果
モデルの拡張動作を研究するために、Googleはパラメータサイズが2.7からの範囲のモデルで実験を実施しましたB to 41M モデル サイズとバッチ サイズの影響を調べるために、実験結果を以下の図 9 に示します。
モデルのサイズが大きくなるにつれて、最終的なトレーニング損失が減少することが観察できます。これは、Genie アプローチがスケーリングによって恩恵を受けることを強く示しています。同時に、バッチ サイズを増やすと、モデルのパフォーマンスも向上します。
定性的結果
Google は、Platformers データセットでトレーニングされた Genie 11B パラメトリック モデルと Robotics データセットでトレーニングされた小規模モデルの定性的な実験結果を示します。結果は、Genie モデルがさまざまなドメインにわたって高品質で制御可能なビデオを生成できることを示しています。特に、Google はプラットフォーム トレーニング モデルを定性的に評価するために配布外 (OOD) 画像プロンプトのみを使用しており、Genie アプローチの堅牢性と大規模データ トレーニングの価値を実証しています。
エージェントトレーニング。おそらくいつか、Genie をマルチタスク エージェントをトレーニングするための基本世界モデルとして使用できるようになるでしょう。図 14 で、著者らは、開始フレームが与えられた新しい RL 環境でさまざまな軌道を生成するためにモデルをすでに使用できることを示しています。
著者らは、手続き的に生成された 2D プラットフォーム ゲーム環境である CoinRun で評価を実施し、エキスパート操作へのアクセスを上限とした Oracle 行動クローン (BC) モデルと比較しました。
アブレーションの研究。選択 潜在アクションモデルを設計する際、著者らは使用する入力の種類を慎重に検討しました。最終的な選択は生の画像 (ピクセル) を使用することでしたが、著者らは Genie を設計する際にトークン化された画像を使用する (図 5 の x を z に置き換える) という選択肢に対してこの選択を評価しました。この代替方法は「トークン入力」モデルと呼ばれます (表 2 を参照)。
トークナイザー アーキテクチャのアブレーション。著者らは、1) (空間のみ) ViT、2) (空間および時間) ST-ViViT、3) (空間および時間) CViViT を含む 3 つのトークナイザーの選択肢のパフォーマンスを比較しました (表 3)。
以上がたった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。