目录
方法介绍
实验
首页 科技周边 人工智能 世界模型也扩散!训练出的智能体竟然不错

世界模型也扩散!训练出的智能体竟然不错

Jun 13, 2024 am 10:12 AM
训练 智能体

世界模型提供了一种以安全且样本高效的方式训练强化学习智能体的方法。近期,世界模型主要对离散潜在变量序列进行操作来模拟环境动态。

然而,这种压缩为紧凑离散表征的方法可能会忽略对强化学习很重要的视觉细节。另一方面,扩散模型已成为图像生成的主要方法,对离散潜在模型提出了挑战。

这种范式转变的推动,来自日内瓦大学、爱丁堡大学、微软研究院的研究者联合提出一种在扩散世界模型中训练的强化学习智能体——DIAMOND(DIffusion As a Model Of eNvironment Dreams)。

世界模型也扩散!训练出的智能体竟然不错


  • 论文地址:https://arxiv.org/abs/2405.12399
  • 项目地址:https://github.com/eloialonso/diamond
  • 论文标题:Diffusion for World Modeling: Visual Details Matter in Atari

在Atari 100k基准测试中,DIAMOND+获得了1.46的平均人类归一化得分(HNS)。这意味着在世界模型中训练的智能体的SOTA水平完全可以在世界模型中训练的智能体的SOTA水平进行完全训练。该研究提供了稳定性分析来说明DIAMOND的设计选择对于确保扩散世界模型的长期高效稳定是必要的。

除了在图像空间中操作的好处是使扩散世界模型能够成为环境的直接代表,从而提供对世界模型和智能体行为更深入的了解。特别地,该研究发现某些游戏中性能的提高源于对关键视觉细节的更好建模。

方法介绍

接下来,本文介绍了 DIAMOND,这是一种在扩散世界模型中训练的强化学习智能体。具体来说,研究者基于 2.2 节引入的漂移和扩散系数 f 和 g,这两个系数对应于一种特定的扩散范式选择。此外,该研究还选择了基于 Karras 等人提出的 EDM 公式。

首先定义一个扰动核,世界模型也扩散!训练出的智能体竟然不错,其中,世界模型也扩散!训练出的智能体竟然不错 是一个与扩散时间相关的实值函数,称为噪声时间表。这对应于将漂移和扩散系数设为 世界模型也扩散!训练出的智能体竟然不错世界模型也扩散!训练出的智能体竟然不错

接着使用 Karras 等人(2022)引入的网络预处理,同时参数化公式(5)中的世界模型也扩散!训练出的智能体竟然不错,作为噪声观测值和神经网络世界模型也扩散!训练出的智能体竟然不错 预测值的加权和: 

世界模型也扩散!训练出的智能体竟然不错

得到公式(6)

世界模型也扩散!训练出的智能体竟然不错

其中为了简洁定义,世界模型也扩散!训练出的智能体竟然不错包含所有条件变量。 

世界模型也扩散!训练出的智能体竟然不错

预处理器的选择。选择预处理器世界模型也扩散!训练出的智能体竟然不错世界模型也扩散!训练出的智能体竟然不错,以保持网络输入和输出在任何噪声水平世界模型也扩散!训练出的智能体竟然不错 下的单位方差。世界模型也扩散!训练出的智能体竟然不错 是噪声水平的经验转换, 世界模型也扩散!训练出的智能体竟然不错 由 世界模型也扩散!训练出的智能体竟然不错 和数据分布的标准差 世界模型也扩散!训练出的智能体竟然不错 给出,公式为世界模型也扩散!训练出的智能体竟然不错

 结合公式 5 和 6,得到世界模型也扩散!训练出的智能体竟然不错训练目标:

世界模型也扩散!训练出的智能体竟然不错

该研究使用标准的 U-Net 2D 来构建向量场世界模型也扩散!训练出的智能体竟然不错,并保留一个包含过去 L 个观测和动作的缓冲区,以此来对模型进行条件化。接下来他们将这些过去的观测按通道方式与下一个带噪观测拼接,并通过自适应组归一化层将动作输入到 U-Net 的残差块中。正如在第 2.3 节和附录 A 中讨论的,有许多可能的采样方法可以从训练好的扩散模型中生成下一个观测。虽然该研究发布的代码库支持多种采样方案,但该研究发现欧拉方法在不需要额外的 NFE(函数评估次数)以及避免了高阶采样器或随机采样的不必要复杂性的情况下是有效的。 

实验

为了全面评估 DIAMOND,该研究使用了公认的 Atari 100k 基准测试,该基准测试包括 26 个游戏,用于测试智能体的广泛能力。对于每个游戏,智能体只允许在环境中进行 100k 次操作,这大约相当于人类 2 小时的游戏时间,以在评估前学习玩游戏。作为参考,没有限制的 Atari 智能体通常训练 5000 万步,这相当于经验的 500 倍增加。研究者从头开始在每个游戏上用 5 个随机种子训练 DIAMOND。每次运行大约使用 12GB 的 VRAM,在单个 Nvidia RTX 4090 上大约需要 2.9 天(总计 1.03 个 GPU 年)。 

表 1 比较了在世界模型中训练智能体的不同得分:

世界模型也扩散!训练出的智能体竟然不错

图 2 中提供了平均值和 IQM( Interquartile Mean )置信区间:

世界模型也扩散!训练出的智能体竟然不错

结果表明,DIAMOND 在基准测试中表现强劲,超过人类玩家在 11 个游戏中的表现,并达到了 1.46 的 HNS 得分,这是完全在世界模型中训练的智能体的新纪录。该研究还发现,DIAMOND 在需要捕捉细节的环境中表现特别出色,例如 Asterix、Breakout 和 Road Runner。

为了研究扩散变量的稳定性,该研究分析了自回归生成的想象轨迹(imagined trajectory),如下图 3 所示:

世界模型也扩散!训练出的智能体竟然不错

该研究发现有些情况需要迭代求解器将采样过程驱动到特定模式,如图 4 所示的拳击游戏:

世界模型也扩散!训练出的智能体竟然不错

如图 5 所示,与 IRIS 想象的轨迹相比,DIAMOND 想象的轨迹通常具有更高的视觉质量,并且更符合真实环境。

世界模型也扩散!训练出的智能体竟然不错

感兴趣的读者可以阅读论文原文,了解更多研究内容。

以上是世界模型也扩散!训练出的智能体竟然不错的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1675
14
CakePHP 教程
1429
52
Laravel 教程
1333
25
PHP教程
1278
29
C# 教程
1257
24
开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! 开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

抛弃编码器-解码器架构,用扩散模型做边缘检测效果更好,国防科大提出DiffusionEdge 抛弃编码器-解码器架构,用扩散模型做边缘检测效果更好,国防科大提出DiffusionEdge Feb 07, 2024 pm 10:12 PM

当前的深度边缘检测网络通常采用编码器-解码器架构,其中包含上下采样模块,以更好地提取多层次的特征。然而,这种结构限制了网络输出准确且细致的边缘检测结果。针对这一问题,一篇AAAI2024上的论文给出了新的解决方案。论文题目:DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection作者:叶云帆(国防科技大学),徐凯(国防科技大学),黄雨行(国防科技大学),易任娇(国防科技大学),蔡志平(国防科技大学)论文链接:https://ar

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5 通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5 Feb 07, 2024 pm 10:15 PM

赶在春节前,通义千问大模型(Qwen)的1.5版上线了。今天上午,新版本的消息引发了AI社区关注。新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B和72B。其中,最强版本的性能超越了GPT3.5和Mistral-Medium。该版本包含Base模型和Chat模型,并提供多语言支持。阿里通义千问团队表示,相关技术也已经上线到了通义千问官网和通义千问App。除此以外,今天Qwen1.5的发布还有如下一些重点:支持32K上下文长度;开放了Base+Chat模型的checkpoint;

大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增 大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增 Jan 31, 2024 am 11:39 AM

大型语言模型(LLM)通常拥有数十亿参数,经过数万亿token的数据训练。然而,这样的模型训练和部署成本都非常昂贵。为了降低计算需求,人们常常采用各种模型压缩技术。这些模型压缩技术一般可以分为四类:蒸馏、张量分解(包括低秩因式分解)、剪枝和量化。剪枝方法已经存在一段时间,但许多方法需要在剪枝后进行恢复微调(RFT)以保持性能,这使得整个过程成本高且难以扩展。苏黎世联邦理工学院和微软的研究者提出了一个解决此问题的方法,名为SliceGPT。该方法的核心思想是通过删除权重矩阵中的行和列来降低网络的嵌

你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了 赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了 Feb 01, 2024 pm 04:51 PM

在去年4月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究者们联合发布了LLaVA(LargeLanguageandVisionAssistant)。尽管LLaVA只是用一个小的多模态指令数据集进行训练,但在一些样本上展现出了与GPT-4非常相似的推理结果。然后在10月,他们推出了LLaVA-1.5,通过对原始LLaVA进行简单修改,在11个基准测试中刷新了SOTA。这次升级的结果非常令人振奋,为多模态AI助手领域带来了新的突破。研究团队宣布推出LLaVA-1.6版本,针对推理、OCR和

快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 Jun 11, 2024 am 09:51 AM

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影

超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

See all articles