目录
最高可取得人类5倍成绩
以SR-SPR为基础修改
首页 科技周边 人工智能 两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏

两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏

Jul 03, 2023 pm 08:57 PM
ai 效率 速通

DeepMind的AI智能体,又来卷自己了!

注意看,这个名叫BBF的家伙,只用2个小时,就掌握了26款雅达利游戏,效率和人类相当,超越了自己一众前辈。

要知道,AI智能体通过强化学习解决问题的效果一直都不错,但最大的问题就在于这种方式效率很低,需要很长时间摸索。

两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏图片

而BBF带来的突破正是在效率方面。

怪不得它的全名可以叫Bigger、Better、Faster。

而且它还能只在单卡上完成训练,算力要求也降低许多。

BBF由谷歌DeepMind和蒙特利尔大学共同提出,目前数据和代码均已开源。

最高可取得人类5倍成绩

用于评价BBF游戏表现的数值,叫做IQM。

IQM是多方面游戏表现的综合得分,本文中的IQM成绩以人类为基准进行了归一化处理。

经与多个前人成果相比较,BBF在包含26款雅达利游戏的Atari 100K测试数据集中取得了最高的IQM成绩。

并且,在训练过的26款游戏中,BBF的成绩已经超过了人类。

与表现相似的Eff.Zero相比,BBF消耗的GPU时间缩短了将近一半。

而消耗GPU时间相似的SPR和SR-SPR,性能又和BBF差了一大截。

两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏图片

而在反复进行的测试中,BBF达到某一IQM分数的比例始终保持着较高水平。

甚至有超过总测试次数1/8的运行当中取得了5倍于人类的成绩。

两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏图片

即使加上其他没有训练过的雅达利游戏,BBF也能取得超过人类一半的分数IQM分数。

而如果单独看未训练的这29款游戏,BBF的得分是人类的四至五成。

两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏图片

以SR-SPR为基础修改

推动BBF研究的问题是,如何在样本量稀少的情况下扩展深度强化学习网络。

为了研究这一问题,DeepMind将目光聚焦在了Atari 100K基准上。

但DeepMind很快发现,单纯增大模型规模并不能提高其表现。

两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏图片

在深度学习模型的设计中,每步更新次数(Replay Ratio,RR)是一项重要参数。

具体到雅达利游戏,RR值越大,模型在游戏中取得的成绩越高。

最终,DeepMind以SR-SPR作为基础引擎,SR-SPR的RR值最高可达16。

而DeepMind经过综合考虑,选择了8作为BBF的RR值。

考虑到部分用户不愿花费RR=8的运算成本,DeepMind同时开发了RR=2版本的BBF

两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏图片

DeepMind对SR-SPR中的多项内容进行修改之后,采用自监管训练得到了BBF,主要包括以下几个方面:

  • 更高的卷积层重置强度:提高卷积层重置强度可以增大面向随机目标的扰动幅度,让模型表现更好并减少损失,BBF的重置强度增加后,扰动幅度从SR-SPR的20%提高到了50%
  • 更大的网络规模:将神经网络层数从3层提高至15层,宽度也增大4倍
  • 更新范围(n)缩小:想要提高模型的表现,需要使用非固定的n值。BBF每4万个梯度步骤重置一次,每次重置的前1万个梯度步骤中,n以指数形式从10下降至3,衰减阶段占BBF训练过程的25%
  • 更大的衰减因子(γ):有人发现增大学习过程中的γ值可以提高模型表现,BBF的γ值从传统的0.97增至0.997
  • 权重衰减:避免过度拟合的出现,BBF的衰减量约为0.1
  • 删除NoisyNet:原始SR-SPR中包含的NoisyNet不能提高模型表现

消融实验结果表明,在每步更新次数为2和8的条件下,上述因素对BBF的表现均有不同程度的影响。

两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏图片

其中,硬复位和更新范围的缩小影响最为显著。

两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏图片

而对于上面两个图中没有提到的NoisyNet,对模型表现的影响则并不显著。

两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏图片

论文地址:https://arxiv.org/abs/2305.19452GitHub项目页:https://github.com/google-research/google-research/tree/master/bigger_better_faster

参考链接:[1]https://www.php.cn/link/69b4fa3be19bdf400df34e41b93636a4

[2]https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value-based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/

— 完 —

以上是两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

debian readdir如何实现文件排序 debian readdir如何实现文件排序 Apr 13, 2025 am 09:06 AM

在Debian系统中,readdir函数用于读取目录内容,但其返回的顺序并非预先定义的。要对目录中的文件进行排序,需要先读取所有文件,再利用qsort函数进行排序。以下代码演示了如何在Debian系统中使用readdir和qsort对目录文件进行排序:#include#include#include#include//自定义比较函数,用于qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

如何优化debian readdir的性能 如何优化debian readdir的性能 Apr 13, 2025 am 08:48 AM

在Debian系统中,readdir系统调用用于读取目录内容。如果其性能表现不佳,可尝试以下优化策略:精简目录文件数量:尽可能将大型目录拆分成多个小型目录,降低每次readdir调用处理的项目数量。启用目录内容缓存:构建缓存机制,定期或在目录内容变更时更新缓存,减少对readdir的频繁调用。内存缓存(如Memcached或Redis)或本地缓存(如文件或数据库)均可考虑。采用高效数据结构:如果自行实现目录遍历,选择更高效的数据结构(例如哈希表而非线性搜索)存储和访问目录信

Debian Apache日志级别如何设置 Debian Apache日志级别如何设置 Apr 13, 2025 am 08:33 AM

本文介绍如何在Debian系统中调整ApacheWeb服务器的日志记录级别。通过修改配置文件,您可以控制Apache记录的日志信息的详细程度。方法一:修改主配置文件定位配置文件:Apache2.x的配置文件通常位于/etc/apache2/目录下,文件名可能是apache2.conf或httpd.conf,具体取决于您的安装方式。编辑配置文件:使用文本编辑器(例如nano)以root权限打开配置文件:sudonano/etc/apache2/apache2.conf

Debian OpenSSL如何防止中间人攻击 Debian OpenSSL如何防止中间人攻击 Apr 13, 2025 am 10:30 AM

在Debian系统中,OpenSSL是一个重要的库,用于加密、解密和证书管理。为了防止中间人攻击(MITM),可以采取以下措施:使用HTTPS:确保所有网络请求使用HTTPS协议,而不是HTTP。HTTPS使用TLS(传输层安全协议)加密通信数据,确保数据在传输过程中不会被窃取或篡改。验证服务器证书:在客户端手动验证服务器证书,确保其可信。可以通过URLSession的委托方法来手动验证服务器

Debian邮件服务器SSL证书安装方法 Debian邮件服务器SSL证书安装方法 Apr 13, 2025 am 11:39 AM

在Debian邮件服务器上安装SSL证书的步骤如下:1.安装OpenSSL工具包首先,确保你的系统上已经安装了OpenSSL工具包。如果没有安装,可以使用以下命令进行安装:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私钥和证书请求接下来,使用OpenSSL生成一个2048位的RSA私钥和一个证书请求(CSR):openss

debian readdir如何与其他工具集成 debian readdir如何与其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系统中的readdir函数是用于读取目录内容的系统调用,常用于C语言编程。本文将介绍如何将readdir与其他工具集成,以增强其功能。方法一:C语言程序与管道结合首先,编写一个C程序调用readdir函数并输出结果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

Debian邮件服务器防火墙配置技巧 Debian邮件服务器防火墙配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法,包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables(如果尚未安装):sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则:sudoiptables-L配置

Debian syslog如何学习 Debian syslog如何学习 Apr 13, 2025 am 11:51 AM

本指南将指导您学习如何在Debian系统中使用Syslog。Syslog是Linux系统中用于记录系统和应用程序日志消息的关键服务,它帮助管理员监控和分析系统活动,从而快速识别并解决问题。一、Syslog基础知识Syslog的核心功能包括:集中收集和管理日志消息;支持多种日志输出格式和目标位置(例如文件或网络);提供实时日志查看和过滤功能。二、安装和配置Syslog(使用Rsyslog)Debian系统默认使用Rsyslog。您可以通过以下命令安装:sudoaptupdatesud

See all articles