兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲-人工智慧-PHP中文網

最高可取得人類5倍成績

以SR-SPR為基礎修改

首頁

科技週邊

人工智慧

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 03, 2023 pm 08:57 PM

ai 效率速通

DeepMind的AI智能體，又來捲自己了！

注意看，這個名叫BBF的傢伙，只用2個小時，就掌握了26款雅達利遊戲，效率和人類相當，超越了自己一眾前輩。

要知道，AI智能體透過強化學習解決問題的效果一直都不錯，但最大的問題就在於這種方式效率很低，需要很長時間摸索。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

而BBF帶來的突破正是在效率方面。

怪不得它的全名可以叫Bigger、Better、Faster。

而且它還能只在單卡上完成訓練，算力要求也降低許多。

BBF由GoogleDeepMind和蒙特婁大學共同提出，目前資料和程式碼都已開源。

最高可取得人類5倍成績

用來評估BBF遊戲表現的數值，叫做IQM。

IQM是多方面遊戲表現的綜合得分，本文中的IQM成績以人類為基準進行了歸一化處理。

經與多個前人成果相比較，BBF在包含26款雅達利遊戲的Atari 100K測試資料集中取得了最高的IQM成績。

並且，在訓練過的26款遊戲中，BBF的成績已經超過人類了。

與表現相似的Eff.Zero相比，BBF消耗的GPU時間縮短了將近一半。

而消耗GPU時間相似的SPR和SR-SPR，效能又和BBF差了一截斷。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

而在重複進行的測驗中，BBF達到某一IQM分數的比例始終保持著較高水準。

甚至有超過總測試次數1/8的運行當中取得了5倍於人類的成績。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

即使加上其他沒有訓練過的雅達利遊戲，BBF也能取得超過人類一半的分數IQM分數。

而如果單獨看未訓練的這29款遊戲，BBF的得分是人類的四至五成。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

以SR-SPR為基礎修改

推動BBF研究的問題是，如何在樣本量稀少的情況下擴展深度強化學習網路。

為了研究這個問題，DeepMind將目光聚焦在了Atari 100K基準上。

但DeepMind很快就發現，單純增大模型規模並不能提升其表現。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

在深度學習模型的設計中，每步驟更新次數（Replay Ratio，RR）是一項重要參數。

具體到雅達利遊戲，RR值越大，模型在遊戲中取得的成績越高。

最終，DeepMind以SR-SPR作為基礎引擎，SR-SPR的RR值最高可達16。

而DeepMind經過綜合考慮，選擇了8作為BBF的RR值。

考慮到部分使用者不願意花費RR=8的運算成本，DeepMind同時開發了RR=2版本的BBF

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

##DeepMind對SR-SPR中的多項內容進行修改之後，採用自監管訓練得到了BBF，主要包括以下幾個方面：

更高的捲積層重置強度：提高卷積層重置強度可以增加面向隨機目標的擾動幅度，讓模型表現更好並減少損失，BBF的重置強度增加後，擾動幅度從SR-SPR的20%提高到了50%
更大的網路規模：將神經網路層數從3層提高至15層，寬度也增加4倍
#更新範圍（n）縮小：想要提升模型的表現，需要使用非固定的n值。 BBF每4萬個梯度步驟重置一次，每次重置的前1萬個梯度步驟中，n以指數形式從10下降至3，衰減階段佔BBF訓練過程的25%
更大的衰減因子（γ）：有人發現增大學習過程中的γ值可以提高模型表現，BBF的γ值從傳統的0.97增加到0.997
權重衰減：避免過度擬合的出現， BBF的衰減量約為0.1
刪除NoisyNet：原始SR-SPR中包含的NoisyNet不能提高模型表現

消融實驗結果表明，在每步更新次數為2和8的條件下，上述因素對BBF的表現均有不同程度的影響。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

其中，硬重置和更新範圍的縮小影響最為顯著。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

而對於上面兩個圖中沒有提到的NoisyNet，對模型表現的影響則並不顯著。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

論文網址：https://arxiv.org/abs/2305.19452GitHub專案頁：https://github.com /google-research/google-research/tree/master/bigger_better_faster

參考鏈接：[1]https://www.php.cn/link/69b4fa3be19bdf400df34e41b93636a4

[2]https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value -based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/

— 完 —

以上是兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7545

CakePHP 教程

1381

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

Debian郵件服務器防火牆配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian郵件服務器的防火牆是確保服務器安全性的重要步驟。以下是幾種常用的防火牆配置方法，包括iptables和firewalld的使用。使用iptables配置防火牆安裝iptables（如果尚未安裝）：sudoapt-getupdatesudoapt-getinstalliptables查看當前iptables規則：sudoiptables-L配置

Golang的影響：速度，效率和簡單性 Apr 14, 2025 am 12:11 AM

goimpactsdevelopmentpositationality throughspeed，效率和模擬性。 1）速度：gocompilesquicklyandrunseff，IdealforlargeProjects.2）效率：效率：ITScomprehenSevestAndardArdardArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdEcceSteral Depentencies，增強的Depleflovelmentimency.3）簡單性。

centos關機命令行 Apr 14, 2025 pm 09:12 PM

CentOS 關機命令為 shutdown，語法為 shutdown [選項] 時間 [信息]。選項包括：-h 立即停止系統；-P 關機後關電源；-r 重新啟動；-t 等待時間。時間可指定為立即 (now)、分鐘數 ( minutes) 或特定時間 (hh:mm)。可添加信息在系統消息中顯示。

索尼證實PS5 Pro使用特製GPU 與AMD合作研發AI可能性 Apr 13, 2025 pm 11:45 PM

SonyInteractiveEntertainment（SIE，索尼互动娱乐）首席架构师MarkCerny公开更多次世代主机PlayStation5Pro(PS5Pro)硬体细节，包括性能升级的AMDRDNA2.x架构GPU，以及与AMD合作代号「Amethyst」的机器学习/人工智慧计划。PS5Pro性能提升的重点仍集中在更强大的GPU、先进的光线追踪与AI驱动的PSSR超解析度功能等3大支柱上。GPU採用客制化的AMDRDNA2架构，索尼将其命名为RDNA2.x，它拥有部分RDNA3架构才

CentOS上GitLab的備份方法有哪些 Apr 14, 2025 pm 05:33 PM

CentOS系統下GitLab的備份與恢復策略為了保障數據安全和可恢復性，CentOS上的GitLab提供了多種備份方法。本文將詳細介紹幾種常見的備份方法、配置參數以及恢復流程，幫助您建立完善的GitLab備份與恢復策略。一、手動備份利用gitlab-rakegitlab:backup:create命令即可執行手動備份。此命令會備份GitLab倉庫、數據庫、用戶、用戶組、密鑰和權限等關鍵信息。默認備份文件存儲於/var/opt/gitlab/backups目錄，您可通過修改/etc/gitlab

CentOS上Zookeeper性能調優有哪些方法 Apr 14, 2025 pm 03:18 PM

在CentOS上對Zookeeper進行性能調優，可以從多個方面入手，包括硬件配置、操作系統優化、配置參數調整以及監控與維護等。以下是一些具體的調優方法：硬件配置建議使用SSD硬盤：由於Zookeeper的數據寫入磁盤，強烈建議使用SSD以提高I/O性能。足夠的內存：為Zookeeper分配足夠的內存資源，避免頻繁的磁盤讀寫。多核CPU：使用多核CPU，確保Zookeeper可以並行處理請

終於改了！微軟Windows搜索功能將迎來全新更新 Apr 13, 2025 pm 11:42 PM

微軟針對Windows搜索功能的改進，目前已在歐盟地區部分WindowsInsider頻道展開測試。此前，整合後的Windows搜索功能飽受用戶詬病，體驗欠佳。此次更新將搜索功能拆分為本地搜索和基於Bing的網絡搜索兩部分，以提升用戶體驗。新版搜索界面默認進行本地文件搜索，如需進行網絡搜索，需點擊“MicrosoftBingWebSearch”標籤進行切換。切換後，搜索欄將顯示“MicrosoftBingWebSearch:”，用戶可在此輸入關鍵詞。此舉有效避免了本地搜索結果與Bing搜索結果混

CentOS上如何進行PyTorch模型訓練 Apr 14, 2025 pm 03:03 PM

在CentOS系統上高效訓練PyTorch模型，需要分步驟進行，本文將提供詳細指南。一、環境準備：Python及依賴項安裝:CentOS系統通常預裝Python，但版本可能較舊。建議使用yum或dnf安裝Python3併升級pip：sudoyumupdatepython3(或sudodnfupdatepython3)，pip3install--upgradepip。 CUDA與cuDNN(GPU加速):如果使用NVIDIAGPU，需安裝CUDATool

See all articles

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲

最高可取得人類5倍成績

以SR-SPR為基礎修改

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題