ホームページ テクノロジー周辺機器 AI たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

Aug 06, 2024 am 12:18 AM
グーグル 業界 ワールドモデル Genie

ワンクリックでプレイ可能なゲームワールドを生成します。

公開されてからまだ 2 週間しか経っていませんが、Google の世界モデルも登場し、その機能はさらに強力になっているようです。それが生成する仮想世界は「自律的で制御可能」です。 たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。たった今、Google は生成 AI の新しいパラダイム、生成的インタラクティブ環境 (Genie) を定義しました。 Genie は、1 つの画像プロンプトからプレイ可能なインタラクティブな環境を生成できる 110 億パラメータのベース ワールド モデルです。

私たちは、これまで見たことのない画像でそれを促し、私たちの想像力の仮想世界と対話することができます。

合成画像、写真、さらには手描きのスケッチであっても、Genie はそれらから無限の再生可能な世界を生成できます。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

Genie は、フレームの各ペア間の潜在的なアクションを推測する潜在アクション モデル、生のビデオ フレームを個別のトークンに変換するビデオ トークナイザー、および指定されたビデオの次のフレームを予測する動的モデルの 3 つの部分で構成されます。潜在的なアクションと過去のフレーム トークン。

このテクノロジーのリリースを見て、多くの人がこう言いました。Google が再び AI テクノロジーをリードすることになるでしょう。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

Google はまた、Genie によって学習された潜在的なアクションを人間が設計した実際の環境に転送できることを提案しています。この仮説に基づいて、Google はロボット工学分野での潜在的なワールド モデル アプリケーションの概念実証として、ロボット ビデオで Genie モデルをトレーニングしました。

ゲーム、デザイン、XR、ロボット産業の破壊…

私たちは Genie の革命的な重要性を 4 つの次元から理解できます。

まず、Genie はアクション タグなしでコントロールを学習できます。

具体的には、Genie は、アクション ラベル データなしで、多数の公開インターネット ビデオ データ セットを使用してトレーニングされます。

インターネット ビデオには、どのアクションが実行されているか、画像のどの部分を制御する必要があるかについてのラベルがないことが多いため、これは困難でした。しかし、Genie は特にインターネット ビデオから詳細な制御を学習することができます。

Genie の場合、観察のどの部分が一般的に制御可能であるかを理解するだけでなく、生成された環境で一貫したさまざまな潜在的なアクションを推測します。同じ基礎となるアクションが、異なるプロンプト画像でどのように同様の動作を生成するかに注目してください。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

第二に、Genie は次世代の「クリエイター」を育成できます。

たった 1 つの画像でまったく新しいインタラクティブな環境を作成すると、仮想世界を生成して仮想世界に入るさまざまな新しい方法への扉が開きます。たとえば、最先端のテキスト生成画像モデルを使用して開始フレームを生成し、Genie と連携して動的なインタラクティブ環境を生成できます。

次のアニメーションでは、Google は Imagen2 を使用して画像を生成し、それを Genie を使用して現実に変えています:

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

Genie はそれ以上のことができ、ヒューマン デザイン関連の創造的な分野にも応用できます。スケッチ。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

または、現実世界の画像に適用すると:

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

繰り返しになりますが、Google は Genie が汎用インテリジェンスを実現するための基礎であると信じています。これまでの研究では、ゲーム環境は AI エージェント開発の効果的なテストベッドとなり得るが、多くの場合、利用可能なゲームの数によって制限されることが示されています。

Genie を使用すると、新しく生成された世界の無限のカリキュラムで将来の AI エージェントをトレーニングできるようになります。 Google は、Genie によって学習された潜在的なアクションを実際の人間が設計した環境に転送できるという概念実証を発表しました。

最後に、Google は、Genie は追加のドメイン知識を必要とせずに複数のドメインに適用できる一般的な方法であると述べました。

使用されるデータは 2D プラットフォーマーのゲーム プレイやロボットのビデオですが、この方法は一般的であらゆるタイプのドメインに適用でき、より大きなインターネット データ セットに拡張できます。

Google は、RT1 ​​の動きのないビデオで小型の 25 億モデルをトレーニングしました。プラットフォーマーの場合と同様、基本的なアクションのシーケンスが同じである軌跡は、多くの場合、同様の動作を示します。

これは、Genie が一貫した行動空間を学習できることを示しており、これはロボットを訓練して一般化された身体化知能を作成するのに適している可能性があります。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

テクノロジーの公開: 論文「Genie: Generative Interactive Environments」がリリースされました

Google DeepMind が Genie の論文をリリースしました。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

  • 論文アドレス: https://arxiv.org/pdf/2402.15391.pdf

  • プロジェクトホームページ: https://sites.google.com/view/genie-2024/home?pli= 1

この論文の共著者は中国学者のYuge (Jimmy) Shi氏を含めて6人もいる。彼女は現在、Google DeepMind の研究科学者であり、2023 年にオックスフォード大学から機械学習の博士号を取得しました。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

方法の紹介

Genie アーキテクチャの複数のコンポーネントは、Vision Transformer (ViT) に基づいて構築されています。 Transformer の二次メモリのコストがビデオ分野に課題をもたらすため、ビデオには最大 ?(10^4) トークンを含めることができることに注意してください。したがって、Google はすべてのモデル コンポーネントでメモリ効率の高い ST トランスフォーマー アーキテクチャ (図 4 を参照) を使用して、モデルの容量と計算上の制約のバランスをとります。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

Genie には 3 つの重要なコンポーネントが含まれています (下の図に示すように):

1) フレームの各ペア間の潜在的なアクションを推論するために使用される潜在アクション モデル (LAM)

2) ビデオ トークナイザー (トークナイザー) )、元のビデオ フレームを個別のトークンに変換するために使用されます?;

3) 潜在的なアクションと過去のフレームのトークンが与えられた動的モデルは、ビデオの次のフレームを予測するために使用されます。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

具体的には:

潜在アクションモデル: 制御可能なビデオ生成を実現するために、Google は、前のフレームで行われたアクションを将来のフレーム予測の条件として使用します。ただし、このようなアクション ラベルがインターネット上のビデオで利用できることはほとんどなく、アクションの注釈を取得するコストが高くなる可能性があります。代わりに、Google は完全に監視されていない方法で潜在的なアクションを学習します (図 5 を参照)。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

ビデオトークナイザー: 以前の研究に基づいて、Google はビデオを個別のトークンに圧縮して次元を削減し、より高品質のビデオ生成を実現します (図 6 を参照)。実装には、Google は VQ-VAE を使用します。これは、ビデオの ? フレーム たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。 を入力として受け取り、各フレームの離散表現 たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。 を生成します。ここで、 ? は離散潜在空間サイズです。トークナイザーは、標準の VQ-VQAE を使用してビデオ シーケンス全体でトレーニングされます。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

動的モデル: デコーダー専用の MaskGIT トランスフォーマーです (図 7)。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

Genieの推論プロセスは次のとおりです

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

実験結果

拡張結果

モデルの拡張動作を研究するために、Googleはパラメータサイズが2.7からの範囲のモデルで実験を実施しましたB to 41M モデル サイズとバッチ サイズの影響を調べるために、実験結果を以下の図 9 に示します。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

モデルのサイズが大きくなるにつれて、最終的なトレーニング損失が減少することが観察できます。これは、Genie アプローチがスケーリングによって恩恵を受けることを強く示しています。同時に、バッチ サイズを増やすと、モデルのパフォーマンスも向上します。

定性的結果

Google は、Platformers データセットでトレーニングされた Genie 11B パラメトリック モデルと Robotics データセットでトレーニングされた小規模モデルの定性的な実験結果を示します。結果は、Genie モデルがさまざまなドメインにわたって高品質で制御可能なビデオを生成できることを示しています。特に、Google はプラットフォーム トレーニング モデルを定性的に評価するために配布外 (OOD) 画像プロンプトのみを使用しており、Genie アプローチの堅牢性と大規模データ トレーニングの価値を実証しています。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

エージェントトレーニング。おそらくいつか、Genie をマルチタスク エージェントをトレーニングするための基本世界モデルとして使用できるようになるでしょう。図 14 で、著者らは、開始フレームが与えられた新しい RL 環境でさまざまな軌道を生成するためにモデルをすでに使用できることを示しています。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

著者らは、手続き的に生成された 2D プラットフォーム ゲーム環境である CoinRun で評価を実施し、エキスパート操作へのアクセスを上限とした Oracle 行動クローン (BC) モデルと比較しました。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

アブレーションの研究。選択 潜在アクションモデルを設計する際、著者らは使用する入力の種類を慎重に検討しました。最終的な選択は生の画像 (ピクセル) を使用することでしたが、著者らは Genie を設計する際にトークン化された画像を使用する (図 5 の x を z に置き換える) という選択肢に対してこの選択を評価しました。この代替方法は「トークン入力」モデルと呼ばれます (表 2 を参照)。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

トークナイザー アーキテクチャのアブレーション。著者らは、1) (空間のみ) ViT、2) (空間および時間) ST-ViViT、3) (空間および時間) CViViT を含む 3 つのトークナイザーの選択肢のパフォーマンスを比較しました (表 3)。

たった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。

以上がたった今、Google が基本的な世界モデル、つまりインタラクティブな仮想世界を生成できる 11B パラメータをリリースしました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Crypto Digital Asset Trading App(2025グローバルランキング)に推奨されるトップ10 Crypto Digital Asset Trading App(2025グローバルランキング)に推奨されるトップ10 Mar 18, 2025 pm 12:15 PM

この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散化された交換など、注意を払う価値のある上位10の暗号通貨取引プラットフォームを推奨しています。これらのプラットフォームには、トランザクションの数量、トランザクションの種類、セキュリティ、コンプライアンス、特別な機能の点で独自の利点があります。適切なプラットフォームを選択するには、あなた自身の取引体験、リスク許容度、投資の好みに基づいて包括的な検討が必要です。 この記事があなたがあなた自身に最適なスーツを見つけるのに役立つことを願っています

OUYI OKEXアカウントを登録、使用、キャンセルする方法に関するチュートリアル OUYI OKEXアカウントを登録、使用、キャンセルする方法に関するチュートリアル Mar 31, 2025 pm 04:21 PM

この記事では、OUYI OKEXアカウントの登録、使用、キャンセル手順を詳細に紹介します。登録するには、アプリをダウンロードし、携帯電話番号または電子メールアドレスを入力して登録する必要があります。使用法は、ログイン、リチャージ、引き出し、取引、セキュリティ設定などの操作手順をカバーします。アカウントをキャンセルするには、OUYI Okexカスタマーサービスに連絡し、必要な情報を提供し、処理を待つ必要があり、最後にアカウントキャンセルの確認を取得する必要があります。 この記事を通じて、ユーザーはOUYI OKEXアカウントの完全なライフサイクル管理を簡単に習得し、デジタルアセットトランザクションを安全かつ便利に実施できます。

Binanceの登録方法に関する詳細なチュートリアル(2025初心者ガイド) Binanceの登録方法に関する詳細なチュートリアル(2025初心者ガイド) Mar 18, 2025 pm 01:57 PM

この記事では、ビナンスの登録とセキュリティ設定の完全なガイドを提供し、事前登録の準備(機器、電子メール、携帯電話番号、IDドキュメントの準備を含む)をカバーし、公式ウェブサイトとアプリに2つの登録方法、およびさまざまなレベルのID検証(KYC)プロセスを紹介します。さらに、この記事では、ファンドパスワードの設定、2要素検証(Google AuthenticatorおよびSMS検証を含む2FA)の有効化、アンチフィッシングコードのセットアップなどの主要なセキュリティ手順にも焦点を当て、ユーザーが暗号通貨トランザクションのBinance Binanceプラットフォームを安全かつ便利に登録および使用するのに役立ちます。 取引する前に、関連する法律や規制、市場のリスクを必ず理解してください。

Jieba Wordセグメンテーションを最適化して、風光明媚なスポットコメントのキーワード抽出効果を改善する方法は? Jieba Wordセグメンテーションを最適化して、風光明媚なスポットコメントのキーワード抽出効果を改善する方法は? Apr 01, 2025 pm 06:24 PM

Jieba Wordセグメンテーションを最適化して、風光明媚なスポットコメントのキーワード抽出を改善する方法は? Jieba Wordセグメンテーションを使用して風光明媚なスポットコメントデータを処理する場合、単語セグメンテーションの結果が無視されている場合...

gate.ioモバイルアプリの使用に関するチュートリアル gate.ioモバイルアプリの使用に関するチュートリアル Mar 26, 2025 pm 05:15 PM

gate.ioモバイルアプリの使用に関するチュートリアル:1。Androidユーザーについては、公式gate.ioのWebサイトにアクセスしてAndroidインストールパッケージをダウンロードするには、携帯電話設定に不明なソースからアプリケーションをインストールできるようにする必要があります。 2。IOSユーザーの場合、App Storeで「gate.io」を検索してダウンロードします。

最古の仮想通貨のランキングに関する最新の更新 最古の仮想通貨のランキングに関する最新の更新 Apr 22, 2025 am 07:18 AM

仮想通貨の「最古」のランキングは次のとおりです。1。Bitcoin(BTC)は、2009年1月3日に発行され、最初の分散型デジタル通貨です。 2。2011年10月7日にリリースされたLitecoin(LTC)は、「ビットコインの軽量バージョン」として知られています。 3。2011年に発行されたRipple(XRP)は、国境を越えた支払い用に設計されています。 4。2013年12月6日に発行されたDogecoin(Doge)は、Litecoinコードに基づいた「Meme Coin」です。 5。2015年7月30日にリリースされたEthereum(ETH)は、スマートコントラクトをサポートする最初のプラットフォームです。 6。2014年に発行されたTether(USDT)は、米ドル1:1に固定された最初のスタブコインです。 7。アダ、

OKEXトレーディングプラットフォーム公式ウェブサイトログインポータル OKEXトレーディングプラットフォーム公式ウェブサイトログインポータル Mar 18, 2025 pm 12:42 PM

この記事では、準備作業(安定したネットワーク接続とブラウザの更新を確保するため)、公式ウェブサイトへのアクセス(URLの正確さに注意し、フィッシングWebサイトを避けるため)、ログインの入り口を見つけるために、「ログイン」ボタンの右上隅に入っていますセキュリティ検証(スライディング検証、Google検証、またはSMS検証)、そして最後に、ログインした後にデジタル資産取引を実施できます。 ユーザー資産の安全性を確保するための安全で便利なログインプロセス。

安全で信頼性の高い仮想通貨購入アプリに推奨されるトップ10 安全で信頼性の高い仮想通貨購入アプリに推奨されるトップ10 Mar 18, 2025 pm 12:12 PM

2025年には、トップ10の推奨されるグローバルな仮想通貨取引プラットフォームで、デジタル通貨市場でのプレイを支援します。この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散交換など、10のトッププラットフォームの中心的な利点と特別な機能を深く分析します。高流動性と豊富な取引タイプを追求している場合でも、安全性、コンプライアンス、革新的な機能に焦点を当てている場合でも、ここで自分に合ったプラットフォームを見つけることができます。 トランザクションタイプ、セキュリティ、特別な機能などの包括的な比較を提供して、最も適切な仮想通貨取引プラットフォームを選択し、2025年にデジタル通貨投資の機会をつかむのに役立ちます。

See all articles