目錄
最高可取得人類5倍成績
以SR-SPR為基礎修改
首頁 科技週邊 人工智慧 兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲

Jul 03, 2023 pm 08:57 PM
ai 效率 速通

DeepMind的AI智能體,又來捲自己了!

注意看,這個名叫BBF的傢伙,只用2個小時,就掌握了26款雅達利遊戲,效率和人類相當,超越了自己一眾前輩。

要知道,AI智能體透過強化學習解決問題的效果一直都不錯,但最大的問題就在於這種方式效率很低,需要很長時間摸索。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

而BBF帶來的突破正是在效率方面。

怪不得它的全名可以叫Bigger、Better、Faster。

而且它還能只在單卡上完成訓練,算力要求也降低許多。

BBF由GoogleDeepMind和蒙特婁大學共同提出,目前資料和程式碼都已開源。

最高可取得人類5倍成績

用來評估BBF遊戲表現的數值,叫做IQM。

IQM是多方面遊戲表現的綜合得分,本文中的IQM成績以人類為基準進行了歸一化處理。

經與多個前人成果相比較,BBF在包含26款雅達利遊戲的Atari 100K測試資料集中取得了最高的IQM成績。

並且,在訓練過的26款遊戲中,BBF的成績已經超過人類了。

與表現相似的Eff.Zero相比,BBF消耗的GPU時間縮短了將近一半。

而消耗GPU時間相似的SPR和SR-SPR,效能又和BBF差了一截斷。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

而在重複進行的測驗中,BBF達到某一IQM分數的比例始終保持著較高水準。

甚至有超過總測試次數1/8的運行當中取得了5倍於人類的成績。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

即使加上其他沒有訓練過的雅達利遊戲,BBF也能取得超過人類一半的分數IQM分數。

而如果單獨看未訓練的這29款遊戲,BBF的得分是人類的四至五成。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

以SR-SPR為基礎修改

推動BBF研究的問題是,如何在樣本量稀少的情況下擴展深度強化學習網路。

為了研究這個問題,DeepMind將目光聚焦在了Atari 100K基準上。

但DeepMind很快就發現,單純增大模型規模並不能提升其表現。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

在深度學習模型的設計中,每步驟更新次數(Replay Ratio,RR)是一項重要參數。

具體到雅達利遊戲,RR值越大,模型在遊戲中取得的成績越高。

最終,DeepMind以SR-SPR作為基礎引擎,SR-SPR的RR值最高可達16。

而DeepMind經過綜合考慮,選擇了8作為BBF的RR值。

考慮到部分使用者不願意花費RR=8的運算成本,DeepMind同時開發了RR=2版本的BBF

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

##DeepMind對SR-SPR中的多項內容進行修改之後,採用自監管訓練得到了BBF,主要包括以下幾個方面:

  • 更高的捲積層重置強度:提高卷積層重置強度可以增加面向隨機目標的擾動幅度,讓模型表現更好並減少損失,BBF的重置強度增加後,擾動幅度從SR-SPR的20%提高到了50%
  • 更大的網路規模:將神經網路層數從3層提高至15層,寬度也增加4倍
  • #更新範圍(n)縮小:想要提升模型的表現,需要使用非固定的n值。 BBF每4萬個梯度步驟重置一次,每次重置的前1萬個梯度步驟中,n以指數形式從10下降至3,衰減階段佔BBF訓練過程的25%
  • 更大的衰減因子(γ):有人發現增大學習過程中的γ值可以提高模型表現,BBF的γ值從傳統的0.97增加到0.997
  • 權重衰減:避免過度擬合的出現, BBF的衰減量約為0.1
  • 刪除NoisyNet:原始SR-SPR中包含的NoisyNet不能提高模型表現

消融實驗結果表明,在每步更新次數為2和8的條件下,上述因素對BBF的表現均有不同程度的影響。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

其中,硬重置和更新範圍的縮小影響最為顯著。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

而對於上面兩個圖中沒有提到的NoisyNet,對模型表現的影響則並不顯著。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

論文網址:https://arxiv.org/abs/2305.19452GitHub專案頁:https://github.com /google-research/google-research/tree/master/bigger_better_faster

參考鏈接:[1]https://www.php.cn/link/69b4fa3be19bdf400df34e41b93636a4

[2]https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value -based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/

— 完 —

以上是兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Debian郵件服務器防火牆配置技巧 Debian郵件服務器防火牆配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian郵件服務器的防火牆是確保服務器安全性的重要步驟。以下是幾種常用的防火牆配置方法,包括iptables和firewalld的使用。使用iptables配置防火牆安裝iptables(如果尚未安裝):sudoapt-getupdatesudoapt-getinstalliptables查看當前iptables規則:sudoiptables-L配置

Golang的影響:速度,效率和簡單性 Golang的影響:速度,效率和簡單性 Apr 14, 2025 am 12:11 AM

goimpactsdevelopmentpositationality throughspeed,效率和模擬性。 1)速度:gocompilesquicklyandrunseff,IdealforlargeProjects.2)效率:效率:ITScomprehenSevestAndardArdardArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdEcceSteral Depentencies,增強的Depleflovelmentimency.3)簡單性。

centos關機命令行 centos關機命令行 Apr 14, 2025 pm 09:12 PM

CentOS 關機命令為 shutdown,語法為 shutdown [選項] 時間 [信息]。選項包括:-h 立即停止系統;-P 關機後關電源;-r 重新啟動;-t 等待時間。時間可指定為立即 (now)、分鐘數 ( minutes) 或特定時間 (hh:mm)。可添加信息在系統消息中顯示。

索尼證實PS5 Pro使用特製GPU 與AMD合作研發AI可能性 索尼證實PS5 Pro使用特製GPU 與AMD合作研發AI可能性 Apr 13, 2025 pm 11:45 PM

SonyInteractiveEntertainment(SIE,索尼互动娱乐)首席架构师MarkCerny公开更多次世代主机PlayStation5Pro(PS5Pro)硬体细节,包括性能升级的AMDRDNA2.x架构GPU,以及与AMD合作代号「Amethyst」的机器学习/人工智慧计划。PS5Pro性能提升的重点仍集中在更强大的GPU、先进的光线追踪与AI驱动的PSSR超解析度功能等3大支柱上。GPU採用客制化的AMDRDNA2架构,索尼将其命名为RDNA2.x,它拥有部分RDNA3架构才

CentOS上GitLab的備份方法有哪些 CentOS上GitLab的備份方法有哪些 Apr 14, 2025 pm 05:33 PM

CentOS系統下GitLab的備份與恢復策略為了保障數據安全和可恢復性,CentOS上的GitLab提供了多種備份方法。本文將詳細介紹幾種常見的備份方法、配置參數以及恢復流程,幫助您建立完善的GitLab備份與恢復策略。一、手動備份利用gitlab-rakegitlab:backup:create命令即可執行手動備份。此命令會備份GitLab倉庫、數據庫、用戶、用戶組、密鑰和權限等關鍵信息。默認備份文件存儲於/var/opt/gitlab/backups目錄,您可通過修改/etc/gitlab

CentOS上Zookeeper性能調優有哪些方法 CentOS上Zookeeper性能調優有哪些方法 Apr 14, 2025 pm 03:18 PM

在CentOS上對Zookeeper進行性能調優,可以從多個方面入手,包括硬件配置、操作系統優化、配置參數調整以及監控與維護等。以下是一些具體的調優方法:硬件配置建議使用SSD硬盤:由於Zookeeper的數據寫入磁盤,強烈建議使用SSD以提高I/O性能。足夠的內存:為Zookeeper分配足夠的內存資源,避免頻繁的磁盤讀寫。多核CPU:使用多核CPU,確保Zookeeper可以並行處理請

終於改了!微軟Windows搜索功能將迎來全新更新 終於改了!微軟Windows搜索功能將迎來全新更新 Apr 13, 2025 pm 11:42 PM

微軟針對Windows搜索功能的改進,目前已在歐盟地區部分WindowsInsider頻道展開測試。此前,整合後的Windows搜索功能飽受用戶詬病,體驗欠佳。此次更新將搜索功能拆分為本地搜索和基於Bing的網絡搜索兩部分,以提升用戶體驗。新版搜索界面默認進行本地文件搜索,如需進行網絡搜索,需點擊“MicrosoftBingWebSearch”標籤進行切換。切換後,搜索欄將顯示“MicrosoftBingWebSearch:”,用戶可在此輸入關鍵詞。此舉有效避免了本地搜索結果與Bing搜索結果混

CentOS上如何進行PyTorch模型訓練 CentOS上如何進行PyTorch模型訓練 Apr 14, 2025 pm 03:03 PM

在CentOS系統上高效訓練PyTorch模型,需要分步驟進行,本文將提供詳細指南。一、環境準備:Python及依賴項安裝:CentOS系統通常預裝Python,但版本可能較舊。建議使用yum或dnf安裝Python3併升級pip:sudoyumupdatepython3(或sudodnfupdatepython3),pip3install--upgradepip。 CUDA與cuDNN(GPU加速):如果使用NVIDIAGPU,需安裝CUDATool

See all articles