目錄
攻擊方法
評估結果
首頁 科技週邊 人工智慧 用魔法打敗魔法!一個叫板頂級人類棋手的圍棋AI輸給了它的同類

用魔法打敗魔法!一個叫板頂級人類棋手的圍棋AI輸給了它的同類

Apr 12, 2023 am 08:40 AM
ai 研究

近年來,自我博弈中的密集學習已經在圍棋、西洋棋等一系列遊戲中取得了超人的表現。此外,自我博弈的理想化版本也收斂於納許均衡。納許均衡在博弈論中非常著名,該理論是由博弈論創始人,諾貝爾獎得主約翰· 納許提出,即在一個博弈過程中,無論對方的策略選擇如何,當事人一方都會選擇某個確定的策略,則該策略稱為支配性策略。如果任何一位參與者在其他所有參與者的策略確定的情況下,其選擇的策略是最優的,那麼這個組合就被定義為納許均衡。

先前就有研究表明,自我博弈中看似有效的連續控制策略也可以被對抗策略利用,這表明自我博弈可能並不像之前認為的那樣強大。這就引出一個問題:對抗策略是攻克自我賽局的方法,還是自我賽局策略本身就能力不足?

為了回答這個問題,來自 MIT、 UC 柏克萊等機構的研究者進行了一番研究,他們選擇自我博弈比較擅長的領域進行,即圍棋(Go)。具體而言,他們對公開可用的最強圍棋 AI 系統 KataGo 進行攻擊。針對一個固定的網路(凍結KataGo),他們訓練了一個端到端的對抗策略,僅用了訓練KataGo 時0.3% 的計算,他們就獲得了一個對抗性策略,並用該策略攻擊KataGo,在沒有搜尋的情況下,他們的策略對KataGo 的攻擊達到了99% 的勝率,這與歐洲前100 名圍棋選手實力相當。而當 KataGo 使用足夠的搜尋接近超人的水平時,他們的勝率達到了 50%。至關重要的是,攻擊者(本文指該研究學到的策略)並不能透過學習通用的圍棋策略來獲勝。

這裡我們有必要說一下 KataGo,正如本文所說的,他們在撰寫本文時,KataGo 還是最強大的公開圍棋 AI 系統。在搜尋的祝福下,可以說 KataGo 非常強大,戰勝了本身就是超人類的 ELF OpenGo 和 Leela Zero。現在該研究的攻擊者戰勝 KataGo,可以說是非常厲害了。

用魔法打敗魔法!一個叫板頂級人類棋手的圍棋AI輸給了它的同類

圖 1:對抗策略打敗了 KataGo 受害者。

用魔法打敗魔法!一個叫板頂級人類棋手的圍棋AI輸給了它的同類

  • #論文網址:https://arxiv.org/pdf/2211.00241.pdf
  • 研究首頁:https://goattack.alignmentfund.org/adversarial-policy-katago?row=0#no_search-board

#有趣的是,研究提出的對抗策略無法戰勝人類玩家,即使是業餘選手也能大幅勝過所提模型。

攻擊方法

KataGo、AlphaZero 等先前的方法通常是訓練智能體自己玩遊戲,遊戲對手是智能體自己。而在 MIT、UC 柏克萊等機構的這項研究中,攻擊者(adversary)和固定受害者(victim)智能體之間進行博弈,利用這種方式訓練攻擊者。該研究希望訓練攻擊者利用與受害者智能體的博弈交互,而不只是模仿博弈對手。這個過程被稱為“victim-play”。

用魔法打敗魔法!一個叫板頂級人類棋手的圍棋AI輸給了它的同類

在常規的自我博弈中,智能體透過從自己的策略網路取樣來建模對手的動作,這種方法的確適用於自我博弈。但在 victim-play 中,從攻擊者的策略網路建模受害者的方法就是錯誤的。為了解決這個問題,研究提出了兩類對抗型 MCTS(A-MCTS),包括:

  • A-MCTS-S:在A-MCTS-S 中,研究者將攻擊者的搜尋過程設定如下:當受害者移動棋子時,從受害者策略網路中取樣;當輪到攻擊者移動棋子時,從攻擊者策略網路中取樣。
  • A-MCTS-R:由於A-MCTS-S 低估了受害者的能力,該研究提出了A-MCTS-R,在A-MCTS-R 樹中的每個受害者節點上為受害者執行MCTS。然而,這種變化增加了攻擊者訓練和推理的計算複雜性。

在訓練過程中,該研究針對與 frozen KataGo 受害者的博弈來訓練對抗策略。在沒有搜尋的情況下,攻擊者與 KataGo 受害者的博弈可以實現 >99% 的勝率,這與歐洲前 100 名圍棋選手的實力相當。此外,經過訓練的攻擊者在與受害者智能體博弈的 64 個回合中實現了超過 80% 的勝率,研究者估計其實力與最優秀的人類圍棋棋手相當。

值得注意的是,這些遊戲表明,該研究提出的對抗策略並不是完全在做博弈,而是透過欺騙KataGo 在對攻擊者有利的位置落子,以過早地結束遊戲。事實上,儘管攻擊者能夠利用與最佳人類圍棋選手相當的博弈策略,但它很容易被人類業餘愛好者擊敗。

為了測試攻擊者與人類對弈的水平,該研究讓論文一作 Tony Tong Wang 與攻擊者模型實際對弈了一番。 Wang 在這個研究計畫之前從未學習過圍棋,但他還是以巨大的優勢贏得了攻擊者模型。這表明研究提出的對抗性策略雖然可以擊敗能戰勝人類頂級玩家的 AI 模型,但它無法擊敗人類玩家。這或許可以說明一些 AI 圍棋模型是存在 bug 的。

評估結果

攻擊受害者策略網路

#首先,研究者對自身攻擊方法對KataGo (Wu, 2019) 的表現進行了評估,結果發現A-MCTS-S 演算法針對無搜尋的Latest(KataGo 的最新網路)實現了99% 以上的勝率。

如下圖 3 所示,研究者評估了自身對抗策略對 Initial 和 Latest 策略網絡的表現。他們發現在大部分訓練過程中,自體攻擊者對兩個受害者都取得很高的勝率(高於 90%)。但隨著時間推移,攻擊者對 Latest 過度擬合,對 Initial 的勝率也下降到 20% 左右。

研究者也評估了對 Latest 的最佳對抗策略檢查點,取得了超過 99% 的勝率。並且,如此高的勝率是在對抗策略僅訓練 3.4 × 10^7 個時間步長的情況下實現的,這一數據是受害者時間步長的 0.3%。

用魔法打敗魔法!一個叫板頂級人類棋手的圍棋AI輸給了它的同類

遷移到有搜尋的受害者

研究者將對抗策略成功地遷移到了低搜尋機制上,並評估了上一節訓練的對抗策略對有搜尋Latest 的能力。如下圖 4a 所示,他們發現在 32 個受害者回合時,A-MCTS-S 對受害者的勝率下降到了 80%。但這裡,受害者在訓練與推理時都沒有搜尋。

用魔法打敗魔法!一個叫板頂級人類棋手的圍棋AI輸給了它的同類

此外,研究者還測試了A-MCTS-R,並發現它的表現更好,在32 個受害者回合時對Latest 取得了超過99% 的勝率,但在128 個回合時勝率下降到10% 以下。

在圖 4b 中,研究者展示了當攻擊者來到 4096 個回合時,A-MCTS-S 對 Latest 最高取得了 54% 的勝率。這與 A-MCTS-R 在 200 個回合時的表現非常相似,後者取得了 49% 的勝率。

其他評估

#如下圖9 所示,研究者發現,儘管Latest 是更強大的智能體,但針對Latest 訓練的攻擊者在對抗Latest 時要比Initial 表現更好。

用魔法打敗魔法!一個叫板頂級人類棋手的圍棋AI輸給了它的同類

最後,研究者探討了攻擊原理,包括受害者的 value 預測和硬編碼防禦評估。如下圖 5 所示,所有的基線攻擊都要比他們訓練的對抗策略表現差得多。

用魔法打敗魔法!一個叫板頂級人類棋手的圍棋AI輸給了它的同類

更多技術細節請參閱原始論文。

以上是用魔法打敗魔法!一個叫板頂級人類棋手的圍棋AI輸給了它的同類的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

mysql 無法啟動怎麼解決 mysql 無法啟動怎麼解決 Apr 08, 2025 pm 02:21 PM

MySQL啟動失敗的原因有多種,可以通過檢查錯誤日誌進行診斷。常見原因包括端口衝突(檢查端口占用情況並修改配置)、權限問題(檢查服務運行用戶權限)、配置文件錯誤(檢查參數設置)、數據目錄損壞(恢復數據或重建表空間)、InnoDB表空間問題(檢查ibdata1文件)、插件加載失敗(檢查錯誤日誌)。解決問題時應根據錯誤日誌進行分析,找到問題的根源,並養成定期備份數據的習慣,以預防和解決問題。

了解 ACID 屬性:可靠數據庫的支柱 了解 ACID 屬性:可靠數據庫的支柱 Apr 08, 2025 pm 06:33 PM

數據庫ACID屬性詳解ACID屬性是確保數據庫事務可靠性和一致性的一組規則。它們規定了數據庫系統處理事務的方式,即使在系統崩潰、電源中斷或多用戶並發訪問的情況下,也能保證數據的完整性和準確性。 ACID屬性概述原子性(Atomicity):事務被視為一個不可分割的單元。任何部分失敗,整個事務回滾,數據庫不保留任何更改。例如,銀行轉賬,如果從一個賬戶扣款但未向另一個賬戶加款,則整個操作撤銷。 begintransaction;updateaccountssetbalance=balance-100wh

mysql 能返回 json 嗎 mysql 能返回 json 嗎 Apr 08, 2025 pm 03:09 PM

MySQL 可返回 JSON 數據。 JSON_EXTRACT 函數可提取字段值。對於復雜查詢,可考慮使用 WHERE 子句過濾 JSON 數據,但需注意其性能影響。 MySQL 對 JSON 的支持在不斷增強,建議關注最新版本及功能。

掌握SQL LIMIT子句:控制查詢中的行數 掌握SQL LIMIT子句:控制查詢中的行數 Apr 08, 2025 pm 07:00 PM

SQLLIMIT子句:控制查詢結果行數SQL中的LIMIT子句用於限制查詢返回的行數,這在處理大型數據集、分頁顯示和測試數據時非常有用,能有效提升查詢效率。語法基本語法:SELECTcolumn1,column2,...FROMtable_nameLIMITnumber_of_rows;number_of_rows:指定返回的行數。帶偏移量的語法:SELECTcolumn1,column2,...FROMtable_nameLIMIToffset,number_of_rows;offset:跳過

如何針對高負載應用程序優化 MySQL 性能? 如何針對高負載應用程序優化 MySQL 性能? Apr 08, 2025 pm 06:03 PM

MySQL數據庫性能優化指南在資源密集型應用中,MySQL數據庫扮演著至關重要的角色,負責管理海量事務。然而,隨著應用規模的擴大,數據庫性能瓶頸往往成為製約因素。本文將探討一系列行之有效的MySQL性能優化策略,確保您的應用在高負載下依然保持高效響應。我們將結合實際案例,深入講解索引、查詢優化、數據庫設計以及緩存等關鍵技術。 1.數據庫架構設計優化合理的數據庫架構是MySQL性能優化的基石。以下是一些核心原則:選擇合適的數據類型選擇最小的、符合需求的數據類型,既能節省存儲空間,又能提升數據處理速度

使用 Prometheus MySQL Exporter 監控 MySQL 和 MariaDB Droplet 使用 Prometheus MySQL Exporter 監控 MySQL 和 MariaDB Droplet Apr 08, 2025 pm 02:42 PM

有效監控 MySQL 和 MariaDB 數據庫對於保持最佳性能、識別潛在瓶頸以及確保整體系統可靠性至關重要。 Prometheus MySQL Exporter 是一款強大的工具,可提供對數據庫指標的詳細洞察,這對於主動管理和故障排除至關重要。

mysql 主鍵可以為 null mysql 主鍵可以為 null Apr 08, 2025 pm 03:03 PM

MySQL 主鍵不可以為空,因為主鍵是唯一標識數據庫中每一行的關鍵屬性,如果主鍵可以為空,則無法唯一標識記錄,將會導致數據混亂。使用自增整型列或 UUID 作為主鍵時,應考慮效率和空間佔用等因素,選擇合適的方案。

Navicat查看MongoDB數據庫密碼的方法 Navicat查看MongoDB數據庫密碼的方法 Apr 08, 2025 pm 09:39 PM

直接通過 Navicat 查看 MongoDB 密碼是不可能的,因為它以哈希值形式存儲。取回丟失密碼的方法:1. 重置密碼;2. 檢查配置文件(可能包含哈希值);3. 檢查代碼(可能硬編碼密碼)。

See all articles