两小时就能超过人类！DeepMind最新AI速通26款雅达利游戏-人工智能-PHP中文网

最高可取得人类5倍成绩

以SR-SPR为基础修改

首页

科技周边

人工智能

两小时就能超过人类！DeepMind最新AI速通26款雅达利游戏

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 03, 2023 pm 08:57 PM

ai 效率速通

DeepMind的AI智能体，又来卷自己了！

注意看，这个名叫BBF的家伙，只用2个小时，就掌握了26款雅达利游戏，效率和人类相当，超越了自己一众前辈。

要知道，AI智能体通过强化学习解决问题的效果一直都不错，但最大的问题就在于这种方式效率很低，需要很长时间摸索。

两小时就能超过人类！DeepMind最新AI速通26款雅达利游戏图片

而BBF带来的突破正是在效率方面。

怪不得它的全名可以叫Bigger、Better、Faster。

而且它还能只在单卡上完成训练，算力要求也降低许多。

BBF由谷歌DeepMind和蒙特利尔大学共同提出，目前数据和代码均已开源。

最高可取得人类5倍成绩

用于评价BBF游戏表现的数值，叫做IQM。

IQM是多方面游戏表现的综合得分，本文中的IQM成绩以人类为基准进行了归一化处理。

经与多个前人成果相比较，BBF在包含26款雅达利游戏的Atari 100K测试数据集中取得了最高的IQM成绩。

并且，在训练过的26款游戏中，BBF的成绩已经超过了人类。

与表现相似的Eff.Zero相比，BBF消耗的GPU时间缩短了将近一半。

而消耗GPU时间相似的SPR和SR-SPR，性能又和BBF差了一大截。

两小时就能超过人类！DeepMind最新AI速通26款雅达利游戏图片

而在反复进行的测试中，BBF达到某一IQM分数的比例始终保持着较高水平。

甚至有超过总测试次数1/8的运行当中取得了5倍于人类的成绩。

两小时就能超过人类！DeepMind最新AI速通26款雅达利游戏图片

即使加上其他没有训练过的雅达利游戏，BBF也能取得超过人类一半的分数IQM分数。

而如果单独看未训练的这29款游戏，BBF的得分是人类的四至五成。

两小时就能超过人类！DeepMind最新AI速通26款雅达利游戏图片

以SR-SPR为基础修改

推动BBF研究的问题是，如何在样本量稀少的情况下扩展深度强化学习网络。

为了研究这一问题，DeepMind将目光聚焦在了Atari 100K基准上。

但DeepMind很快发现，单纯增大模型规模并不能提高其表现。

两小时就能超过人类！DeepMind最新AI速通26款雅达利游戏图片

在深度学习模型的设计中，每步更新次数（Replay Ratio，RR）是一项重要参数。

具体到雅达利游戏，RR值越大，模型在游戏中取得的成绩越高。

最终，DeepMind以SR-SPR作为基础引擎，SR-SPR的RR值最高可达16。

而DeepMind经过综合考虑，选择了8作为BBF的RR值。

考虑到部分用户不愿花费RR=8的运算成本，DeepMind同时开发了RR=2版本的BBF

两小时就能超过人类！DeepMind最新AI速通26款雅达利游戏图片

DeepMind对SR-SPR中的多项内容进行修改之后，采用自监管训练得到了BBF，主要包括以下几个方面：

更高的卷积层重置强度：提高卷积层重置强度可以增大面向随机目标的扰动幅度，让模型表现更好并减少损失，BBF的重置强度增加后，扰动幅度从SR-SPR的20%提高到了50%
更大的网络规模：将神经网络层数从3层提高至15层，宽度也增大4倍
更新范围（n）缩小：想要提高模型的表现，需要使用非固定的n值。BBF每4万个梯度步骤重置一次，每次重置的前1万个梯度步骤中，n以指数形式从10下降至3，衰减阶段占BBF训练过程的25%
更大的衰减因子（γ）：有人发现增大学习过程中的γ值可以提高模型表现，BBF的γ值从传统的0.97增至0.997
权重衰减：避免过度拟合的出现，BBF的衰减量约为0.1
删除NoisyNet：原始SR-SPR中包含的NoisyNet不能提高模型表现

消融实验结果表明，在每步更新次数为2和8的条件下，上述因素对BBF的表现均有不同程度的影响。

两小时就能超过人类！DeepMind最新AI速通26款雅达利游戏图片

其中，硬复位和更新范围的缩小影响最为显著。

两小时就能超过人类！DeepMind最新AI速通26款雅达利游戏图片

而对于上面两个图中没有提到的NoisyNet，对模型表现的影响则并不显著。

两小时就能超过人类！DeepMind最新AI速通26款雅达利游戏图片

论文地址：https://arxiv.org/abs/2305.19452GitHub项目页：https://github.com/google-research/google-research/tree/master/bigger_better_faster

参考链接：[1]https://www.php.cn/link/69b4fa3be19bdf400df34e41b93636a4

[2]https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value-based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/

— 完 —

以上是两小时就能超过人类！DeepMind最新AI速通26款雅达利游戏的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7517

CakePHP 教程

1378

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

debian readdir如何实现文件排序 Apr 13, 2025 am 09:06 AM

在Debian系统中，readdir函数用于读取目录内容，但其返回的顺序并非预先定义的。要对目录中的文件进行排序，需要先读取所有文件，再利用qsort函数进行排序。以下代码演示了如何在Debian系统中使用readdir和qsort对目录文件进行排序：#include#include#include#include//自定义比较函数，用于qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

如何优化debian readdir的性能 Apr 13, 2025 am 08:48 AM

在Debian系统中，readdir系统调用用于读取目录内容。如果其性能表现不佳，可尝试以下优化策略：精简目录文件数量:尽可能将大型目录拆分成多个小型目录，降低每次readdir调用处理的项目数量。启用目录内容缓存:构建缓存机制，定期或在目录内容变更时更新缓存，减少对readdir的频繁调用。内存缓存（如Memcached或Redis）或本地缓存（如文件或数据库）均可考虑。采用高效数据结构:如果自行实现目录遍历，选择更高效的数据结构（例如哈希表而非线性搜索）存储和访问目录信

Debian Apache日志级别如何设置 Apr 13, 2025 am 08:33 AM

本文介绍如何在Debian系统中调整ApacheWeb服务器的日志记录级别。通过修改配置文件，您可以控制Apache记录的日志信息的详细程度。方法一：修改主配置文件定位配置文件:Apache2.x的配置文件通常位于/etc/apache2/目录下，文件名可能是apache2.conf或httpd.conf，具体取决于您的安装方式。编辑配置文件:使用文本编辑器（例如nano）以root权限打开配置文件：sudonano/etc/apache2/apache2.conf

Debian OpenSSL如何防止中间人攻击 Apr 13, 2025 am 10:30 AM

在Debian系统中，OpenSSL是一个重要的库，用于加密、解密和证书管理。为了防止中间人攻击（MITM），可以采取以下措施：使用HTTPS：确保所有网络请求使用HTTPS协议，而不是HTTP。HTTPS使用TLS（传输层安全协议）加密通信数据，确保数据在传输过程中不会被窃取或篡改。验证服务器证书：在客户端手动验证服务器证书，确保其可信。可以通过URLSession的委托方法来手动验证服务器

Debian邮件服务器SSL证书安装方法 Apr 13, 2025 am 11:39 AM

在Debian邮件服务器上安装SSL证书的步骤如下：1.安装OpenSSL工具包首先，确保你的系统上已经安装了OpenSSL工具包。如果没有安装，可以使用以下命令进行安装：sudoapt-getupdatesudoapt-getinstallopenssl2.生成私钥和证书请求接下来，使用OpenSSL生成一个2048位的RSA私钥和一个证书请求（CSR）：openss

debian readdir如何与其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系统中的readdir函数是用于读取目录内容的系统调用，常用于C语言编程。本文将介绍如何将readdir与其他工具集成，以增强其功能。方法一：C语言程序与管道结合首先，编写一个C程序调用readdir函数并输出结果：#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

Debian邮件服务器防火墙配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法，包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables（如果尚未安装）：sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则：sudoiptables-L配置

Debian syslog如何学习 Apr 13, 2025 am 11:51 AM

本指南将指导您学习如何在Debian系统中使用Syslog。Syslog是Linux系统中用于记录系统和应用程序日志消息的关键服务，它帮助管理员监控和分析系统活动，从而快速识别并解决问题。一、Syslog基础知识Syslog的核心功能包括：集中收集和管理日志消息；支持多种日志输出格式和目标位置（例如文件或网络）；提供实时日志查看和过滤功能。二、安装和配置Syslog(使用Rsyslog)Debian系统默认使用Rsyslog。您可以通过以下命令安装：sudoaptupdatesud

See all articles

两小时就能超过人类！DeepMind最新AI速通26款雅达利游戏

最高可取得人类5倍成绩

以SR-SPR为基础修改

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题