两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏
DeepMind的AI智能体,又来卷自己了!
注意看,这个名叫BBF的家伙,只用2个小时,就掌握了26款雅达利游戏,效率和人类相当,超越了自己一众前辈。
要知道,AI智能体通过强化学习解决问题的效果一直都不错,但最大的问题就在于这种方式效率很低,需要很长时间摸索。
图片
而BBF带来的突破正是在效率方面。
怪不得它的全名可以叫Bigger、Better、Faster。
而且它还能只在单卡上完成训练,算力要求也降低许多。
BBF由谷歌DeepMind和蒙特利尔大学共同提出,目前数据和代码均已开源。
最高可取得人类5倍成绩
用于评价BBF游戏表现的数值,叫做IQM。
IQM是多方面游戏表现的综合得分,本文中的IQM成绩以人类为基准进行了归一化处理。
经与多个前人成果相比较,BBF在包含26款雅达利游戏的Atari 100K测试数据集中取得了最高的IQM成绩。
并且,在训练过的26款游戏中,BBF的成绩已经超过了人类。
与表现相似的Eff.Zero相比,BBF消耗的GPU时间缩短了将近一半。
而消耗GPU时间相似的SPR和SR-SPR,性能又和BBF差了一大截。
图片
而在反复进行的测试中,BBF达到某一IQM分数的比例始终保持着较高水平。
甚至有超过总测试次数1/8的运行当中取得了5倍于人类的成绩。
图片
即使加上其他没有训练过的雅达利游戏,BBF也能取得超过人类一半的分数IQM分数。
而如果单独看未训练的这29款游戏,BBF的得分是人类的四至五成。
图片
以SR-SPR为基础修改
推动BBF研究的问题是,如何在样本量稀少的情况下扩展深度强化学习网络。
为了研究这一问题,DeepMind将目光聚焦在了Atari 100K基准上。
但DeepMind很快发现,单纯增大模型规模并不能提高其表现。
图片
在深度学习模型的设计中,每步更新次数(Replay Ratio,RR)是一项重要参数。
具体到雅达利游戏,RR值越大,模型在游戏中取得的成绩越高。
最终,DeepMind以SR-SPR作为基础引擎,SR-SPR的RR值最高可达16。
而DeepMind经过综合考虑,选择了8作为BBF的RR值。
考虑到部分用户不愿花费RR=8的运算成本,DeepMind同时开发了RR=2版本的BBF
图片
DeepMind对SR-SPR中的多项内容进行修改之后,采用自监管训练得到了BBF,主要包括以下几个方面:
- 更高的卷积层重置强度:提高卷积层重置强度可以增大面向随机目标的扰动幅度,让模型表现更好并减少损失,BBF的重置强度增加后,扰动幅度从SR-SPR的20%提高到了50%
- 更大的网络规模:将神经网络层数从3层提高至15层,宽度也增大4倍
- 更新范围(n)缩小:想要提高模型的表现,需要使用非固定的n值。BBF每4万个梯度步骤重置一次,每次重置的前1万个梯度步骤中,n以指数形式从10下降至3,衰减阶段占BBF训练过程的25%
- 更大的衰减因子(γ):有人发现增大学习过程中的γ值可以提高模型表现,BBF的γ值从传统的0.97增至0.997
- 权重衰减:避免过度拟合的出现,BBF的衰减量约为0.1
- 删除NoisyNet:原始SR-SPR中包含的NoisyNet不能提高模型表现
消融实验结果表明,在每步更新次数为2和8的条件下,上述因素对BBF的表现均有不同程度的影响。
图片
其中,硬复位和更新范围的缩小影响最为显著。
图片
而对于上面两个图中没有提到的NoisyNet,对模型表现的影响则并不显著。
图片
参考链接:[1]https://www.php.cn/link/69b4fa3be19bdf400df34e41b93636a4
[2]https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value-based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/
— 完 —
以上是两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

在Debian系统中,readdir函数用于读取目录内容,但其返回的顺序并非预先定义的。要对目录中的文件进行排序,需要先读取所有文件,再利用qsort函数进行排序。以下代码演示了如何在Debian系统中使用readdir和qsort对目录文件进行排序:#include#include#include#include//自定义比较函数,用于qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

在Debian系统中,readdir系统调用用于读取目录内容。如果其性能表现不佳,可尝试以下优化策略:精简目录文件数量:尽可能将大型目录拆分成多个小型目录,降低每次readdir调用处理的项目数量。启用目录内容缓存:构建缓存机制,定期或在目录内容变更时更新缓存,减少对readdir的频繁调用。内存缓存(如Memcached或Redis)或本地缓存(如文件或数据库)均可考虑。采用高效数据结构:如果自行实现目录遍历,选择更高效的数据结构(例如哈希表而非线性搜索)存储和访问目录信

本文介绍如何在Debian系统中调整ApacheWeb服务器的日志记录级别。通过修改配置文件,您可以控制Apache记录的日志信息的详细程度。方法一:修改主配置文件定位配置文件:Apache2.x的配置文件通常位于/etc/apache2/目录下,文件名可能是apache2.conf或httpd.conf,具体取决于您的安装方式。编辑配置文件:使用文本编辑器(例如nano)以root权限打开配置文件:sudonano/etc/apache2/apache2.conf

在Debian系统中,OpenSSL是一个重要的库,用于加密、解密和证书管理。为了防止中间人攻击(MITM),可以采取以下措施:使用HTTPS:确保所有网络请求使用HTTPS协议,而不是HTTP。HTTPS使用TLS(传输层安全协议)加密通信数据,确保数据在传输过程中不会被窃取或篡改。验证服务器证书:在客户端手动验证服务器证书,确保其可信。可以通过URLSession的委托方法来手动验证服务器

在Debian邮件服务器上安装SSL证书的步骤如下:1.安装OpenSSL工具包首先,确保你的系统上已经安装了OpenSSL工具包。如果没有安装,可以使用以下命令进行安装:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私钥和证书请求接下来,使用OpenSSL生成一个2048位的RSA私钥和一个证书请求(CSR):openss

Debian系统中的readdir函数是用于读取目录内容的系统调用,常用于C语言编程。本文将介绍如何将readdir与其他工具集成,以增强其功能。方法一:C语言程序与管道结合首先,编写一个C程序调用readdir函数并输出结果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法,包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables(如果尚未安装):sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则:sudoiptables-L配置

本指南将指导您学习如何在Debian系统中使用Syslog。Syslog是Linux系统中用于记录系统和应用程序日志消息的关键服务,它帮助管理员监控和分析系统活动,从而快速识别并解决问题。一、Syslog基础知识Syslog的核心功能包括:集中收集和管理日志消息;支持多种日志输出格式和目标位置(例如文件或网络);提供实时日志查看和过滤功能。二、安装和配置Syslog(使用Rsyslog)Debian系统默认使用Rsyslog。您可以通过以下命令安装:sudoaptupdatesud
