用魔法打敗魔法！一個叫板頂級人類棋手的圍棋AI輸給了它的同類-人工智慧-PHP中文網

攻擊方法

評估結果

首頁

科技週邊

人工智慧

用魔法打敗魔法！一個叫板頂級人類棋手的圍棋AI輸給了它的同類

王林

Apr 12, 2023 am 08:40 AM

ai 研究

近年來，自我博弈中的密集學習已經在圍棋、西洋棋等一系列遊戲中取得了超人的表現。此外，自我博弈的理想化版本也收斂於納許均衡。納許均衡在博弈論中非常著名，該理論是由博弈論創始人，諾貝爾獎得主約翰· 納許提出，即在一個博弈過程中，無論對方的策略選擇如何，當事人一方都會選擇某個確定的策略，則該策略稱為支配性策略。如果任何一位參與者在其他所有參與者的策略確定的情況下，其選擇的策略是最優的，那麼這個組合就被定義為納許均衡。

先前就有研究表明，自我博弈中看似有效的連續控制策略也可以被對抗策略利用，這表明自我博弈可能並不像之前認為的那樣強大。這就引出一個問題：對抗策略是攻克自我賽局的方法，還是自我賽局策略本身就能力不足？

為了回答這個問題，來自 MIT、 UC 柏克萊等機構的研究者進行了一番研究，他們選擇自我博弈比較擅長的領域進行，即圍棋（Go）。具體而言，他們對公開可用的最強圍棋 AI 系統 KataGo 進行攻擊。針對一個固定的網路（凍結KataGo），他們訓練了一個端到端的對抗策略，僅用了訓練KataGo 時0.3% 的計算，他們就獲得了一個對抗性策略，並用該策略攻擊KataGo，在沒有搜尋的情況下，他們的策略對KataGo 的攻擊達到了99% 的勝率，這與歐洲前100 名圍棋選手實力相當。而當 KataGo 使用足夠的搜尋接近超人的水平時，他們的勝率達到了 50%。至關重要的是，攻擊者（本文指該研究學到的策略）並不能透過學習通用的圍棋策略來獲勝。

這裡我們有必要說一下 KataGo，正如本文所說的，他們在撰寫本文時，KataGo 還是最強大的公開圍棋 AI 系統。在搜尋的祝福下，可以說 KataGo 非常強大，戰勝了本身就是超人類的 ELF OpenGo 和 Leela Zero。現在該研究的攻擊者戰勝 KataGo，可以說是非常厲害了。

用魔法打敗魔法！一個叫板頂級人類棋手的圍棋AI輸給了它的同類

圖 1：對抗策略打敗了 KataGo 受害者。

用魔法打敗魔法！一個叫板頂級人類棋手的圍棋AI輸給了它的同類

#論文網址：https://arxiv.org/pdf/2211.00241.pdf
研究首頁：https://goattack.alignmentfund.org/adversarial-policy-katago?row=0#no_search-board

#有趣的是，研究提出的對抗策略無法戰勝人類玩家，即使是業餘選手也能大幅勝過所提模型。

攻擊方法

KataGo、AlphaZero 等先前的方法通常是訓練智能體自己玩遊戲，遊戲對手是智能體自己。而在 MIT、UC 柏克萊等機構的這項研究中，攻擊者（adversary）和固定受害者（victim）智能體之間進行博弈，利用這種方式訓練攻擊者。該研究希望訓練攻擊者利用與受害者智能體的博弈交互，而不只是模仿博弈對手。這個過程被稱為“victim-play”。

用魔法打敗魔法！一個叫板頂級人類棋手的圍棋AI輸給了它的同類

在常規的自我博弈中，智能體透過從自己的策略網路取樣來建模對手的動作，這種方法的確適用於自我博弈。但在 victim-play 中，從攻擊者的策略網路建模受害者的方法就是錯誤的。為了解決這個問題，研究提出了兩類對抗型 MCTS（A-MCTS），包括：

A-MCTS-S：在A-MCTS-S 中，研究者將攻擊者的搜尋過程設定如下：當受害者移動棋子時，從受害者策略網路中取樣；當輪到攻擊者移動棋子時，從攻擊者策略網路中取樣。
A-MCTS-R：由於A-MCTS-S 低估了受害者的能力，該研究提出了A-MCTS-R，在A-MCTS-R 樹中的每個受害者節點上為受害者執行MCTS。然而，這種變化增加了攻擊者訓練和推理的計算複雜性。

在訓練過程中，該研究針對與 frozen KataGo 受害者的博弈來訓練對抗策略。在沒有搜尋的情況下，攻擊者與 KataGo 受害者的博弈可以實現 >99% 的勝率，這與歐洲前 100 名圍棋選手的實力相當。此外，經過訓練的攻擊者在與受害者智能體博弈的 64 個回合中實現了超過 80% 的勝率，研究者估計其實力與最優秀的人類圍棋棋手相當。

值得注意的是，這些遊戲表明，該研究提出的對抗策略並不是完全在做博弈，而是透過欺騙KataGo 在對攻擊者有利的位置落子，以過早地結束遊戲。事實上，儘管攻擊者能夠利用與最佳人類圍棋選手相當的博弈策略，但它很容易被人類業餘愛好者擊敗。

為了測試攻擊者與人類對弈的水平，該研究讓論文一作 Tony Tong Wang 與攻擊者模型實際對弈了一番。 Wang 在這個研究計畫之前從未學習過圍棋，但他還是以巨大的優勢贏得了攻擊者模型。這表明研究提出的對抗性策略雖然可以擊敗能戰勝人類頂級玩家的 AI 模型，但它無法擊敗人類玩家。這或許可以說明一些 AI 圍棋模型是存在 bug 的。

評估結果

攻擊受害者策略網路

#首先，研究者對自身攻擊方法對KataGo (Wu, 2019) 的表現進行了評估，結果發現A-MCTS-S 演算法針對無搜尋的Latest（KataGo 的最新網路）實現了99% 以上的勝率。

如下圖 3 所示，研究者評估了自身對抗策略對 Initial 和 Latest 策略網絡的表現。他們發現在大部分訓練過程中，自體攻擊者對兩個受害者都取得很高的勝率（高於 90%）。但隨著時間推移，攻擊者對 Latest 過度擬合，對 Initial 的勝率也下降到 20% 左右。

研究者也評估了對 Latest 的最佳對抗策略檢查點，取得了超過 99% 的勝率。並且，如此高的勝率是在對抗策略僅訓練 3.4 × 10^7 個時間步長的情況下實現的，這一數據是受害者時間步長的 0.3%。

用魔法打敗魔法！一個叫板頂級人類棋手的圍棋AI輸給了它的同類

遷移到有搜尋的受害者

研究者將對抗策略成功地遷移到了低搜尋機制上，並評估了上一節訓練的對抗策略對有搜尋Latest 的能力。如下圖 4a 所示，他們發現在 32 個受害者回合時，A-MCTS-S 對受害者的勝率下降到了 80%。但這裡，受害者在訓練與推理時都沒有搜尋。

用魔法打敗魔法！一個叫板頂級人類棋手的圍棋AI輸給了它的同類

此外，研究者還測試了A-MCTS-R，並發現它的表現更好，在32 個受害者回合時對Latest 取得了超過99% 的勝率，但在128 個回合時勝率下降到10% 以下。

在圖 4b 中，研究者展示了當攻擊者來到 4096 個回合時，A-MCTS-S 對 Latest 最高取得了 54% 的勝率。這與 A-MCTS-R 在 200 個回合時的表現非常相似，後者取得了 49% 的勝率。

其他評估

#如下圖9 所示，研究者發現，儘管Latest 是更強大的智能體，但針對Latest 訓練的攻擊者在對抗Latest 時要比Initial 表現更好。

用魔法打敗魔法！一個叫板頂級人類棋手的圍棋AI輸給了它的同類

最後，研究者探討了攻擊原理，包括受害者的 value 預測和硬編碼防禦評估。如下圖 5 所示，所有的基線攻擊都要比他們訓練的對抗策略表現差得多。

用魔法打敗魔法！一個叫板頂級人類棋手的圍棋AI輸給了它的同類

更多技術細節請參閱原始論文。

以上是用魔法打敗魔法！一個叫板頂級人類棋手的圍棋AI輸給了它的同類的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7478

CakePHP 教程

1377

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

mysql 無法啟動怎麼解決 Apr 08, 2025 pm 02:21 PM

MySQL啟動失敗的原因有多種，可以通過檢查錯誤日誌進行診斷。常見原因包括端口衝突（檢查端口占用情況並修改配置）、權限問題（檢查服務運行用戶權限）、配置文件錯誤（檢查參數設置）、數據目錄損壞（恢復數據或重建表空間）、InnoDB表空間問題（檢查ibdata1文件）、插件加載失敗（檢查錯誤日誌）。解決問題時應根據錯誤日誌進行分析，找到問題的根源，並養成定期備份數據的習慣，以預防和解決問題。

了解 ACID 屬性：可靠數據庫的支柱 Apr 08, 2025 pm 06:33 PM

數據庫ACID屬性詳解ACID屬性是確保數據庫事務可靠性和一致性的一組規則。它們規定了數據庫系統處理事務的方式，即使在系統崩潰、電源中斷或多用戶並發訪問的情況下，也能保證數據的完整性和準確性。 ACID屬性概述原子性(Atomicity):事務被視為一個不可分割的單元。任何部分失敗，整個事務回滾，數據庫不保留任何更改。例如，銀行轉賬，如果從一個賬戶扣款但未向另一個賬戶加款，則整個操作撤銷。 begintransaction;updateaccountssetbalance=balance-100wh

mysql 能返回 json 嗎 Apr 08, 2025 pm 03:09 PM

MySQL 可返回 JSON 數據。 JSON_EXTRACT 函數可提取字段值。對於復雜查詢，可考慮使用 WHERE 子句過濾 JSON 數據，但需注意其性能影響。 MySQL 對 JSON 的支持在不斷增強，建議關注最新版本及功能。

掌握SQL LIMIT子句：控制查詢中的行數 Apr 08, 2025 pm 07:00 PM

SQLLIMIT子句：控制查詢結果行數SQL中的LIMIT子句用於限制查詢返回的行數，這在處理大型數據集、分頁顯示和測試數據時非常有用，能有效提升查詢效率。語法基本語法：SELECTcolumn1,column2,...FROMtable_nameLIMITnumber_of_rows;number_of_rows：指定返回的行數。帶偏移量的語法：SELECTcolumn1,column2,...FROMtable_nameLIMIToffset,number_of_rows;offset：跳過

如何針對高負載應用程序優化 MySQL 性能？ Apr 08, 2025 pm 06:03 PM

MySQL數據庫性能優化指南在資源密集型應用中，MySQL數據庫扮演著至關重要的角色，負責管理海量事務。然而，隨著應用規模的擴大，數據庫性能瓶頸往往成為製約因素。本文將探討一系列行之有效的MySQL性能優化策略，確保您的應用在高負載下依然保持高效響應。我們將結合實際案例，深入講解索引、查詢優化、數據庫設計以及緩存等關鍵技術。 1.數據庫架構設計優化合理的數據庫架構是MySQL性能優化的基石。以下是一些核心原則：選擇合適的數據類型選擇最小的、符合需求的數據類型，既能節省存儲空間，又能提升數據處理速度