On August 21, 2024, the session “SIMA: Developing General AI Agents with Video Games” was held at the game developer conference “CEDEC 2024”. .
In this session, we will provide an overview of Google DeepMind's general-purpose AI agent
"SIMA" (Scalable Instructable Multiworld Agent) for 3D virtual environments, training methods using games, learnings and challenges gained from research, and future projects. Alexandre Mufarek, leader of the company's Technology Strategy/AI R&D Data Strategy department, introduced the company's direction and other information.
Google DeepMind and its game DNA
Mufarek initially described Google DeepMind's mission as ``building responsible AI that benefits humanity,'' or developing AGI (artificial general intelligence) that can be used to safely solve real-world problems. He explained that his goal was to make it useful, and introduced the research he has been doing for nearly 15 years.
He started out researching board games and simple games for the Atari, and eventually began developing reinforcement learning algorithms, inspired by neuroscience and his understanding of how the brain works.
|
Furthermore, as a result of applying the knowledge gained from those projects and proceeding with research, by combining the company's AI models
"AlphaProof"
and
"AlphaGeometry 2" , it was possible to apply the knowledge gained from those projects to the International Mathematics Olympiad in 2024. It is said that he has reached the silver medal level of ability.
It was also mentioned that such results are also used in Google's generative AI "Gemini"
.
|
SIMA used games in its research because most of its members, including Mufarek himself and Google DeepMind CEO Demis Hassabis, are former game developers. He said, ``Games are in our DNA.'' He also says that SIMA's research and game development have more in common than people think.
Mufarek explained his research and game development process as follows: In other words, if you ``formulate a hypothesis and go through trial and error,'' you will eventually ``discover an important piece with great potential.'' However, ``at some point that piece stops working, and you end up in a state where you don't even know why it happened or why it was working in the first place.'' From there, it's a long, iterative, and grueling process of ``discovering all the ways that won't work,'' but with a lot of patience, resources, faith in your initial hypothesis, and persistence, you'll find a solution. About. Everything accelerates from there, meshing well and coming together.
|
使用游戏进行人工智能研究的历史
Mufarek 表示,游戏长期以来一直为人工智能研究的进步做出了贡献,并将继续成为推动研究前进的驱动力。具体来说,游戏为人工智能研究提供了“丰富、动态和复杂的环境,人们可以在其中互动和学习”、“可扩展和可重复的实验”以及“受控和安全的测试”。
当谈到可以互动和学习的丰富、动态和复杂的环境时,游戏中提出的挑战,例如解决虚拟空间中的移动谜题、针对对手制定策略以及适应不断变化的情况,可以与游戏中的挑战进行比较。据解释,人工智能模型可以帮助培养适应各种情况的高级解决问题的技能和决策能力。
对于可扩展和可重复的实验,研究人员可以轻松创建游戏环境的实例,同时运行许多模拟,并使用他们可以收集的大量数据来训练和评估人工智能模型。此外,实验可以持续重复,确保研究结果的可靠性和有效性。
在受控和安全测试方面,评估人工智能模型在各种虚拟情况下的性能可以帮助识别潜在的缺陷和限制,并改进算法,而不会显示与现实世界测试相关的风险。这对于自动驾驶汽车和医疗诊断等应用程序尤其重要,因为这些应用程序中的错误可能会造成严重后果。
还展示了人工智能研究在 2010 年至 2024 年间通过游戏实际取得进展的案例,当时强化学习和深度学习取得了巨大进步。 2010 年代初,Google DeepMind 接受了使用 Atari 游戏和DQN(深度 Q 网络)开发算法的挑战。结果,创建了一种算法,在玩 50 多种 Atari 游戏时展现出超人的性能。
2010 年代中后期,微软使用 “Minecraft” 开发了一个人工智能训练项目“Project Malmo”。此外,OpenAI 的人工智能学习平台“Universe” 拥有非常通用的 UI,使得扩大游戏规模并将其用于研究目的成为可能。
另外,在2020年代后期,用于《Dota 2》的AI系统“OpenAI Five”将出现,由DeepMind开发的AI代理“AlphaStar”将成为“中的顶级玩家” 《星际争霸 II》 甚至在复杂的游戏中也开始使用人工智能,例如获胜游戏。在此期间,Mufarek 专注于具有定制动作空间的单一环境,并通过修改游戏源代码并为 AI 代理实现特殊 API 来创建定制研究平台,他解释说他已经这样做了。
2017年,谷歌宣布的机器学习模型“Transformer”扩展了人工智能的多功能性,包括总结对话句子、写诗和使用大规模语言模型(LLM)分析数据,这都是通过聊天机器人实现的。随着进一步泛化,使用人工智能生成图像、音频和视频已成为可能。
然而,穆法雷克指出了这种大规模人工智能模型的局限性。换句话说,大规模的人工智能模型没有物理性,因此它们只存在于数字领域,无法在物理领域运行。因此,为了在物理领域利用人工智能,需要通过物理传感器赋予其物理性,例如软银的Pepper和Waymo的自动驾驶汽车。
人工智能研究的下一章:SIMA
Mufarek表示,DeepMind对SIMA进行了深入研究,以克服AI模型的上述局限性。目标是“开发一种可以受语言调节的人工智能代理”。换句话说,它不仅可以自主玩游戏,还可以让人类使用自然语言告诉他们想要他们做什么。的目的是创建一个可以执行以下操作的人工智能代理。
|
为实现这一目标而建立的假设是,“如果人工智能代理可以在一种环境中学习某些东西,并使用该技能在另一种环境中做一些事情,那么人工智能将变得通用。”将会继续下去。换句话说,当人类接触新游戏时,无需为每个游戏准备专用的 AI 代理,单个 AI 代理可以继承前一个游戏中的角色和摄像机等操作,这意味着将其变为现实。
为此,DeepMind 与多家游戏公司合作,为 AI 代理创建学习组合。具体来说,人工智能代理是通过记录人类玩《无人深空》、《瓦尔海姆》、《拆解》和《模拟山羊》等游戏的游戏来训练的。此外,SIMA似乎可以通过给出基于文本的指令来实现。
|
SIMA培训
还介绍了SIMA的学习流程是如何构建的。 Mufarek 表示,通过首先加入游戏和研究环境,SIMA 将能够像人类一样玩游戏,而无需访问源代码或特殊 API。
此外,游戏和研究环境的入门将与游戏开发商合作完成。这是为了澄清谁负责如何处理游戏和 SIMA 项目中使用的数据。
Mufarek 表示,SIMA 项目需要多样化且非暴力的学习组合。因此,我们选择了各种游戏标题,包括视觉自然、工业、现实、科幻、或第一人称或第三人称视角的游戏。它还结合了开放世界和沙盒元素,使 SIMA 能够通过复杂的机制采取各种行动。
SIMA使用通用接口,据说是为了创建通用AI代理。 SIMA首先以自然语言书写的文本形式接收人类的目标和指令,然后实时识别它们。然后,就像人类一样,他们使用控制器或键盘和鼠标玩游戏。
Mufarek 解释说,通过使用这样的通用接口,SIMA 可以集成到任何游戏中,无需定制。
此外,还使用了两种方法来创建 SIMA 训练数据。一种是供单人玩游戏、观看视频并使用自然语言注释要点。第二种方法涉及两人团队,其中一个人用自然语言给出指令,另一个人跟随他们,拍摄游戏视频并添加注释。
SIMA数据集是键盘和鼠标操作数据的相加。
这些数据集包括 SIMA 游戏所需的技能,例如游戏中的“创建对象”和“驾驶汽车”。由于收集了所有游戏的这些技能,总数是巨大的,但对于 SIMA 项目来说仍然不够。
Mufarek先生表示,数据和注释的质量越高,对SIMA的改进就越有用,他将继续做出这样的努力。
一旦数据集准备好,SIMA 学习训练就终于可以开始了。这里使用的技术是“条件行为克隆”,它涉及通过模仿人类游戏来学习。
其核心是支持预训练模型的架构,但由于 Gemini 在开发时还不存在,因此它使用无分类器指导(CFG)来优先考虑口头指令而不是视觉输入。据透露,该公司帮助了孩子们学习理解自然语言并帮助他们很好地理解自然语言。
在评估 SIMA 结果的阶段,创建了一个挑战集来衡量各种任务的绩效。任务具有三个元素:第一个是 SIMA 开始其操作的“初始状态”,第二个是 SIMA 必须遵循的“目标/指令”,第三个是确定任务是否执行的“初始状态”已达到成功标准。”
SIMA 还使用“基本事实”(以编程方式确定任务是否已成功完成)、“光学字符识别 (OCR)”(根据屏幕上的文本变化提供有关所采取操作的反馈)以及人类识别据介绍,评估将从三个角度进行:“人工评估”,即检查视频并确认任务是否成功完成。
SIMA 早期研究成果以及该方法的局限性
该项目的早期研究结果表明,SIMA可以完成各种游戏中常见的任务,例如“前进”和“打开菜单”。
他们还能够成功完成不同游戏中可能具有不同含义的任务,例如在“无人深空”中起飞宇宙飞船或在“拆解”中驾驶一艘船。
另一方面,使用三种单独准备的方法来评估玩家是否能够完成每个游戏特定的任务。
一种是“专家”,用单场比赛的数据进行训练,并在相同的环境中进行评估,并以 100% 的性能作为评估的基准。
第二个是“SIMA”,它训练 10 个游戏的数据,然后在其中一款游戏的环境中对其进行测试和评估。
第三个是“Zero-Shot”,它训练 10 个游戏中 9 个的数据,并在剩余 1 个游戏的游戏环境中进行测试和评估。
因此,SIMA 在学习所有 10 个标题时表现出比 Specialist 更高的性能,即使在零射击的情况下,性能也接近 Specialist。
换句话说,穆法雷克先生非常满意,因为他能够确认“人工智能代理可以在一种环境中学习一些东西,并利用该技能在另一种环境中做一些事情”。
然而,该项目的目标是“开发一个以语言为条件的人工智能代理”。因此,当在没有自然语言注释的情况下进行学习并进行测试时,SIMA 的性能显着恶化。
第一次证明了“在许多大规模环境中训练单个智能体会导致学习迁移和泛化”的假设。
还展示了SIMA在各个标题中的表现。根据 Mufarek 先生的说法,不同头衔之间的泛化能力差异是由于执行任务所需的具体知识量的差异造成的
|
如果将使用CFG的指令添加到SIMA中,可以获得比没有它更高的性能。然而,一旦超过某个阈值,性能似乎就会下降。
|
基于上述结果,Mufarek 先生表示“SIMA 确实取得了巨大的成功”,但它“还远未达到完美”。这是因为任务完成率受环境影响很大,根本无法与人类玩耍相比。
不过,他表示,这正是他继续进行 SIMA 研究的动力。
|
|
未来发展
最后,Mufarek先生对SIMA项目的未来发展进行了展望。据称,这将是下一代基于模拟的AI代理研究。这是利用游戏进行AI研究的基础,已经进行了很多年,看来还有很多工作要做。
到目前为止,我们一直在研究学习来提高AI代理的性能,但例如,由于《星际争霸II》的更新,AlphaStar的性能有所恶化。
Mufarek 表示,“每次游戏更新时都让 AI 代理重新训练是不现实的”,并相信通过使 SIMA 更加通用,AI 代理即使在新版本中也能表现良好游戏中添加了一些功能。
此外,SIMA 擅长于可以在短时间内完成的任务,例如“拾柴火”和“放柴火”,但它并不总是擅长需要计划、多个步骤和推理的任务,例如“建造一座房子”,情况并非如此。
不过,现在看来,双子座可以成为SIMA的有力支持,比如,双子座可以成为一名总监,将“建房子”这样的长任务分解成短任务交给SIMA。
Mufarek 先生重申,虽然 SIMA 项目非常令人兴奋并承诺具有强大的多功能性,但它尚未成为完全通用的人工智能代理,如果实现的话,进一步的发展将成为可能。
The above is the detailed content of What is Google DeepMind's general-purpose AI agent 'SIMA' for 3D virtual environments? [CEDEC 2024]. For more information, please follow other related articles on the PHP Chinese website!