Genie 2：3D世界的下一代基礎模型-人工智慧-PHP中文網

Google DeepMind最近發布了Genie 2，這是使用生成AI的巨大進步。考慮能夠從圖像建議中設計出令人著迷的互動完整模型，這就是Genie 2所提供的。它以前的版本Genie使我們有機會創建引人入勝的2D空間。現在，Genie 2提高了賭注，提供了真正的3D體驗。這些視覺上豐富且引人入勝的環境允許使用鍵盤和鼠標等輸入的AI代理和人類操作員瀏覽它們的能力，這意味著這些環境在遊戲，機器人技術和高級AI等研究領域開闢了有趣的邊界。

本文將討論從Genie到Genie 2的過渡，解釋其設計的細節，並介紹其新的可能功能 - 新興功能。我們還將探討它如何快速發展協議並研究其潛力如何在整個部門跨越革命。

學習目標

了解Genie和Genie 2在產生動態，可控制的虛擬環境方面的進步。
探索Genie 2如何利用文本和圖像提示為AI和人類互動創建沉浸式3D世界。
了解Genie 2的結構和組件，包括其自回歸潛在擴散模型。
發現Genie 2在遊戲，機器人技術和AI研究中的應用，用於訓練體現的代理。
檢查Genie 2的緊急功能，例如多樣化的環境產生，對象相互作用和實時原型製作。

什麼是Genie 2？

Genie 2建立在原始Genie模型的成功基礎上，通過引入基礎世界模型，能夠從單個圖像提示中引入高度交互式，3D動作控制環境。與其前任不同，Genie 2專注於創建複雜的3D虛擬世界，為人類和人工智能代理提供了更豐富和更身臨其境的體驗。它使用戶可以使用及時圖像（例如及時圖像）探索基於動作的新穎，基於動作的環境的無限課程。

Genie 2通過擴大其能力來建立其前任Genie的成功。雖然Genie專注於從Internet視頻數據中生成2D環境，但Genie 2現在可以生成動態3D世界。這允許對體現的代理進行訓練和評估，這些代理可以使用鍵盤和鼠標等基本輸入與環境進行交互。該模型的可擴展性和創建動態世界的能力使其非常適合從遊戲設計到機器人技術的各種應用程序。 Genie 2的進步代表了AI研究的重大突破，為以前無法實現的環境開闢了新的代理培訓可能性。

從本質上講，Genie 2代表了生成AI的重大飛躍，將基於圖像的提示與3D世界創建相結合，以增強通才代理的訓練，使其成為現實世界應用程序中AI進步的多功能工具。

Genie和Genie 2的比較表

下表突出了Genie和Genie 2之間的關鍵差異，對它們的獨特能力有了更清晰的了解：

特徵	精靈	Genie 2
型號類型	2D世界模型	3D沉浸世界模型
培訓數據	未標記的互聯網視頻	大型視頻數據集
環境輸出	可控制的2D環境	動態的交互式3D環境
輸入	文字，合成圖像，照片，草圖	圖像提示
互動	逐幀動作控制	與鍵盤和鼠標的完整相互作用
功能	各種環境創造	物體互動，物理模擬和長期背景
申請	在靜態2D世界中培訓AI代理商	遊戲，機器人技術，動態3D世界的實時AI培訓
可伸縮性	限制為2D用例	對於更廣泛的現實應用程序的高度擴展
緊急功能	基於視頻模仿的行為	複雜的動畫，反事實軌跡和現實的物理

基礎世界模型的緊急功能：Genie 2

Genie 2代表了世界模型中的一個重大演變，超出了狹窄領域的限制。基於Genie 1的成功，Genie 2在產生了多樣化的2D世界之後，取得了重大飛躍。現在可以創建各種沉浸式3D環境。 Genie 2在龐大的視頻數據集中受過訓練，模擬了虛擬世界及其內部動作的後果，例如跳躍，游泳等。

與以前的模型不同，Genie 2在大規模上展示了新興功能，例如對象相互作用，複雜的角色動畫，物理模擬和代理行為的建模。這些功能使用戶可以通過簡單的文本或圖像提示創建豐富的交互式世界。例如，用戶可以描述一個他們所設想的世界，選擇生成的圖像，然後進入新創建的環境，並通過鍵盤和鼠標輸入實時與之交互。

關鍵功能

Genie 2的一些關鍵特徵包括：

動作控制：Genie 2智能地將操作應用於正確的對象，增強與角色和環境的相互作用。
反事實生成：它從單個框架中產生了不同的軌跡，模擬了代理訓練和測試的各種動作。
長范圍內記憶：Genie 2保留了長期環境，使代理可以在動態環境中計劃和行動。
各種環境：該模型創造了各種環境，從室外景觀到復雜的室內空間，具有多種元素。
3D結構和對象相互作用：Genie 2模擬複雜的3D結構，支持與對象和環境的現實相互作用。
角色動畫和NPC ：它為角色和不可播放的字符（NPC）動畫，為虛擬世界添加了栩栩如生的運動和行為。
物理模擬：Genie 2結合了現實的物理，模擬對象運動，碰撞和環境相互作用。
現實世界圖像提示：該模型基於現實世界的圖像生成沉浸式的3D環境，從而促進了創意和實用的應用。

借助這些功能，Genie 2不僅擴大了生成AI的界限，而且還為在無限的虛擬環境中培訓和評估通才代理的新可能性開闢了新的可能性。

Genie 2啟用快速原型

Genie 2是快速原型製作的遊戲規則改變者，具有快速實驗各種交互式環境的能力。這是使過程更快，更高效的方式：

無縫的頭像創建：用戶可以提示Genie 2，其中包括來自Imagen 3的圖像到模型和動畫化身（例如，紙飛機，龍，鷹或降落傘），在不同場景中測試動態動作和行為。
模擬複雜的相互作用：Genie 2簡化了測試化身和動作如何在各種環境中相互作用，從而使研究人員可以輕鬆模擬複雜的行為和相互作用。
從概念藝術到互動世界：通過利用卓越的分佈概括，Genie 2將概念藝術和圖紙變成完全交互式環境，從而加速了創作過程。
對藝術家和設計師的快速原型製作：藝術家和設計師可以快速原型和完善虛擬世界，減少環境設計上花費的時間並更快地迭代。
增強的AI培訓：該平台通過提供準備進行測試和模擬的環境加快了AI研究和培訓，從而可以更快地開發動態AI模型。

世界模型中運行的AI代理商

Genie 2允許研究人員迅速為AI代理創建不同的環境。它使代理商可以在新的，看不見的場景中執行任務。該模型通過簡單的提示生成動態3D世界。這有助於測試和評估AI代理進行導航和交互的能力。它支持體現AI研究的進展。

Genie 2的模型結構

Genie 2是一種在大型視頻數據集上訓練的自迴旋潛在擴散模型。它使用自動編碼器處理視頻幀，並將所得的潛在幀饋送到變壓器動力學模型中。該模型使用與大語言模型類似的因果面具進行培訓。

在推論期間，Genie 2逐步生成幀，根據先前的操作預測下一幀。無分類器指導有助於控制動作。本文中的示例使用未填充的基礎模型來展示潛力，而蒸餾版則可以降低質量的實時生成。

Genie 2：3D世界的下一代基礎模型

結論

Genie 2是一種改變遊戲規則的人，它改變了我們原型和實驗交互式世界的方式。它具有令人難以置信的能力，可以在創紀錄的時間內將概念藝術變成動態，功能齊全的環境，因此為研究人員，設計師和創作者帶來了無限的可能性。想像一下，在加速AI培訓和創造性開發的同時，請毫不費力地對化身進行動畫化身和測試複雜的行為。 Genie 2不僅加快了這一過程，還可以增強創新，從而快速迭代和突破，從而突破可能的界限。 AI研究和創意實驗的未來從未如此激動！