Genie 2：3D世界的下一代基础模型-人工智能-PHP中文网

Google DeepMind最近发布了Genie 2，这是使用生成AI的巨大进步。考虑能够从图像建议中设计出令人着迷的互动完整模型，这就是Genie 2所提供的。它以前的版本Genie使我们有机会创建引人入胜的2D空间。现在，Genie 2提高了赌注，提供了真正的3D体验。这些视觉上丰富且引人入胜的环境允许使用键盘和鼠标等输入的AI代理和人类操作员浏览它们的能力，这意味着这些环境在游戏，机器人技术和高级AI等研究领域开辟了有趣的边界。

本文将讨论从Genie到Genie 2的过渡，解释其设计的细节，并介绍其新的可能功能 - 新兴功能。我们还将探讨它如何快速发展协议并研究其潜力如何在整个部门跨越革命。

学习目标

了解Genie和Genie 2在产生动态，可控制的虚拟环境方面的进步。
探索Genie 2如何利用文本和图像提示为AI和人类互动创建沉浸式3D世界。
了解Genie 2的结构和组件，包括其自回归潜在扩散模型。
发现Genie 2在游戏，机器人技术和AI研究中的应用，用于训练体现的代理。
检查Genie 2的紧急功能，例如多样化的环境产生，对象相互作用和实时原型制作。

什么是Genie 2？

Genie 2建立在原始Genie模型的成功基础上，通过引入基础世界模型，能够从单个图像提示中引入高度交互式，3D动作控制环境。与其前任不同，Genie 2专注于创建复杂的3D虚拟世界，为人类和人工智能代理提供了更丰富和更身临其境的体验。它使用户可以使用及时图像（例如及时图像）探索基于动作的新颖，基于动作的环境的无限课程。

Genie 2通过扩大其能力来建立其前任Genie的成功。虽然Genie专注于从Internet视频数据中生成2D环境，但Genie 2现在可以生成动态3D世界。这允许对体现的代理进行训练和评估，这些代理可以使用键盘和鼠标等基本输入与环境进行交互。该模型的可扩展性和创建动态世界的能力使其非常适合从游戏设计到机器人技术的各种应用程序。 Genie 2的进步代表了AI研究的重大突破，为以前无法实现的环境开辟了新的代理培训可能性。

从本质上讲，Genie 2代表了生成AI的重大飞跃，将基于图像的提示与3D世界创建相结合，以增强通才代理的训练，使其成为现实世界应用程序中AI进步的多功能工具。

Genie和Genie 2的比较表

下表突出了Genie和Genie 2之间的关键差异，对它们的独特能力有了更清晰的了解：

特征	精灵	Genie 2
型号类型	2D世界模型	3D沉浸世界模型
培训数据	未标记的互联网视频	大型视频数据集
环境输出	可控制的2D环境	动态的交互式3D环境
输入	文字，合成图像，照片，草图	图像提示
互动	逐帧动作控制	与键盘和鼠标的完整相互作用
功能	各种环境创造	物体互动，物理模拟和长期背景
申请	在静态2D世界中培训AI代理商	游戏，机器人技术，动态3D世界的实时AI培训
可伸缩性	限制为2D用例	对于更广泛的现实应用程序的高度扩展
紧急功能	基于视频模仿的行为	复杂的动画，反事实轨迹和现实的物理

基础世界模型的紧急功能：Genie 2

Genie 2代表了世界模型中的一个重大演变，超出了狭窄领域的限制。基于Genie 1的成功，Genie 2在产生了多样化的2D世界之后，取得了重大飞跃。现在可以创建各种沉浸式3D环境。 Genie 2在庞大的视频数据集中受过训练，模拟了虚拟世界及其内部动作的后果，例如跳跃，游泳等。

与以前的模型不同，Genie 2在大规模上展示了新兴功能，例如对象相互作用，复杂的角色动画，物理模拟和代理行为的建模。这些功能使用户可以通过简单的文本或图像提示创建丰富的交互式世界。例如，用户可以描述一个他们所设想的世界，选择生成的图像，然后进入新创建的环境，并通过键盘和鼠标输入实时与之交互。

关键功能

Genie 2的一些关键特征包括：

动作控制：Genie 2智能地将操作应用于正确的对象，增强与角色和环境的相互作用。
反事实生成：它从单个框架中产生了不同的轨迹，模拟了代理训练和测试的各种动作。
长范围内记忆：Genie 2保留了长期环境，使代理可以在动态环境中计划和行动。
各种环境：该模型创造了各种环境，从室外景观到复杂的室内空间，具有多种元素。
3D结构和对象相互作用：Genie 2模拟复杂的3D结构，支持与对象和环境的现实相互作用。
角色动画和NPC ：它为角色和不可播放的字符（NPC）动画，为虚拟世界添加了栩栩如生的运动和行为。
物理模拟：Genie 2结合了现实的物理，模拟对象运动，碰撞和环境相互作用。
现实世界图像提示：该模型基于现实世界的图像生成沉浸式的3D环境，从而促进了创意和实用的应用。

借助这些功能，Genie 2不仅扩大了生成AI的界限，而且还为在无限的虚拟环境中培训和评估通才代理的新可能性开辟了新的可能性。

Genie 2启用快速原型

Genie 2是快速原型制作的游戏规则改变者，具有快速实验各种交互式环境的能力。这是使过程更快，更高效的方式：

无缝的头像创建：用户可以提示Genie 2，其中包括来自Imagen 3的图像到模型和动画化身（例如，纸飞机，龙，鹰或降落伞），在不同场景中测试动态动作和行为。
模拟复杂的相互作用：Genie 2简化了测试化身和动作如何在各种环境中相互作用，从而使研究人员可以轻松模拟复杂的行为和相互作用。
从概念艺术到互动世界：通过利用卓越的分布概括，Genie 2将概念艺术和图纸变成完全交互式环境，从而加速了创作过程。
对艺术家和设计师的快速原型制作：艺术家和设计师可以快速原型和完善虚拟世界，减少环境设计上花费的时间并更快地迭代。
增强的AI培训：该平台通过提供准备进行测试和模拟的环境加快了AI研究和培训，从而可以更快地开发动态AI模型。

世界模型中运行的AI代理商

Genie 2允许研究人员迅速为AI代理创建不同的环境。它使代理商可以在新的，看不见的场景中执行任务。该模型通过简单的提示生成动态3D世界。这有助于测试和评估AI代理进行导航和交互的能力。它支持体现AI研究的进展。

Genie 2的模型结构

Genie 2是一种在大型视频数据集上训练的自回旋潜在扩散模型。它使用自动编码器处理视频帧，并将所得的潜在帧馈送到变压器动力学模型中。该模型使用与大语言模型类似的因果面具进行培训。

在推论期间，Genie 2逐步生成帧，根据先前的操作预测下一帧。无分类器指导有助于控制动作。本文中的示例使用未填充的基础模型来展示潜力，而蒸馏版则可以降低质量的实时生成。

Genie 2：3D世界的下一代基础模型

结论

Genie 2是一种改变游戏规则的人，它改变了我们原型和实验交互式世界的方式。它具有令人难以置信的能力，可以在创纪录的时间内将概念艺术变成动态，功能齐全的环境，因此为研究人员，设计师和创作者带来了无限的可能性。想象一下，在加速AI培训和创造性开发的同时，请毫不费力地对化身进行动画化身和测试复杂的行为。 Genie 2不仅加快了这一过程，还可以增强创新，从而快速迭代和突破，从而突破可能的界限。 AI研究和创意实验的未来从未如此激动！