DeepMind在遊戲AI領域又有了新成績,這次是西洋軍棋。
在AI遊戲領域,人工智慧的進展往往透過棋盤遊戲來展現。棋盤遊戲可以度量和評估人類和機器如何在受控環境中發展和執行策略。數十年來,提前規劃的能力一直是AI在國際象棋、跳棋、將棋和圍棋等完美資訊遊戲以及撲克、蘇格蘭場等不完美資訊遊戲中取得成功的關鍵。
西洋陸軍棋(Stratego)已成為AI研究的下一批前沿領域之一。遊戲的階段和機制的視覺化圖如下1a所示。遊戲面臨以下兩個挑戰。
其一,Stratego 的博弈樹具有10535個可能狀態,這要多於已經得到充分研究的不完美資訊遊戲無限德州撲克(10164個可能狀態)和圍棋遊戲(10360個可能狀態)。
其二,在Stratego的給定環境中行動需要在遊戲開始時為每個玩家推理超過1066個可能的部署,而撲克只有103對可能的牌。圍棋和西洋棋等完美資訊遊戲沒有私有部署階段,因此避免了Stratego中這項挑戰帶來的複雜性。
目前,我們不可能使用基於模型的SOTA完美資訊規劃技術,也無法使用將遊戲分解為獨立情況的不完美資訊搜尋技術。
由於這些原因,Stratego為研究大規模策略互動提供了一個挑戰性基準。與大多數棋盤遊戲相似,Stratego測試我們循序地做出相對較慢、深思熟慮和合乎邏輯決策的能力。又由於遊戲的結構非常複雜,AI研究社群幾乎沒能取得什麼進展,人工智慧體只能達到人類業餘玩家的水平。因此,在從零開始且沒有人類演示數據的情況下,開發智能體學習端到端策略以在Stratego的不完美資訊下做出最佳決策,仍然是AI研究面臨的重大挑戰之一。
近日,在 DeepMind 的一篇最新論文中,研究者提出了 DeepNash,它是一種無需人類演示、以無模型(model-free)方式學習Stratego自我博弈的智能體。 DeepNask擊敗了以往的SOTA AI智能體,並在該遊戲最複雜的變體Stratego Classic中實現了專家級人類玩家的水平。
論文網址:https://arxiv.org/pdf/2206.15378.pdf。
DeepNash的核心是一種條理化、無模型的強化學習演算法,研究者稱為Regularized Nash Dynamics(R-NaD)。 DeepNash將R-NaD與一個深度神經網路架構相結合,並收斂到納許均衡,這意味著它學會了在激勵競爭下比賽,並對試圖利用它的競爭對手具有穩健性。
下圖 1 b 為DeepNash方法的高階概覽。研究者在Gravon遊戲平台上將它的表現與各種SOTA Stratego機器人和人類玩家進行了系統比較。結果顯示,DeepNash以超過 97% 的勝率擊敗了當前所有 SOTA機器人,並與人類玩家進行了激烈競爭,在2022年度和各個時期的排行榜上都位列前3名,勝率達到了84%。
研究者表示,在學習演算法中不部署任何搜尋方法的情況下,AI演算法第一次能夠在複雜棋盤遊戲中達到人類專家水平,也是AI首次在Stratego遊戲中實現人類專家水準。
DeepNash 採用端到端的學習策略運行Stratego,並在遊戲開始時將棋子戰術性地放在棋盤上(見圖1a),在game-play階段,研究者使用整合深度RL 和博弈論方法。智能體旨在透過自我博弈來學習一個近似的納許均衡。
該研究採用無需搜尋的正交路徑,並提出了一種新方法,將自我博弈中的無模型(model-free)強化學習與博弈論演算法思想-正則化納許動力學(RNaD) 結合。
無模型部分意味著該研究沒有建立一個明確的對手模型來追蹤對手可能出現的狀態,博弈論部分基於這樣的思路,即在強化學習方法的基礎上,他們引導智能體學習行為朝著納許均衡的方向發展。這種組合方法的主要優點是不需要從公共狀態中明確地模擬私有狀態。另一個複雜的挑戰是,將這種無模型的強化學習方法與R-NaD結合,使西洋陸軍棋中的自我博弈與人類專家玩家競爭,這是迄今為止尚未實現的。這種組合的DeepNash方法如上圖1b所示。
DeepNash 中使用的R-NaD 學習演算法是基於正則化思想以達到收斂的目的,R-NaD 依賴三個關鍵步驟,如下圖2b所示:
#DeepNash 由三個元件組成:(1) 核心訓練元件R-NaD ;(2) 微調學習策略以減少模型採取極不可能動作的殘差機率,以及(3) 測試時進行後處理以過濾掉低機率動作並糾錯。
DeepNash 的網路由以下元件構成:一個具有殘差塊和跳躍連接的 U-Net 主幹,以及四個頭。第一個 DeepNash 頭將價值函數輸出為標量,而其餘三個頭則透過在部署和遊戲期間輸出其動作的機率分佈來編碼智能體策略。這個觀測張量的結構如圖3所示:
DeepNash 也與幾個現有的Stratego電腦程式進行了評估:Probe 在Computer Stratego 世界錦標賽中,其中有三年奪冠(2007 年、2008 年、2010 年);Master of the Flag在2009 年贏得了該冠軍;Demon of Ignorance 是Stratego 的開源實作;Asmodeus、Celsius、Celsius1.1、PeternLewis 和Vixen 是2012 年在澳洲大學程式設計競賽中提交的程序,這場比賽PeternLewis 獲勝。
如表1所示,DeepNash在對抗所有這些智能體時贏得了絕大多數的遊戲,儘管DeepNash沒有接受過對抗訓練,只是使用自我博弈。
下圖4a舉例說明DeepNash中的一些經常重複的部署方式;圖4b 顯示了DeepNash(藍方)在棋子中落後(輸掉了7 和8)但在信息方面領先的情況,因為紅方的對手有10、9、8 和兩個7。圖 4c 中的第二個範例顯示了 DeepNash 有機會用其 9 捕獲對手的 6,但這一舉措並未被考慮,可能是因為DeepNash認為保護 9 的身份被認為比物質收益更重要。
在下圖5a中,研究者展現了正向的唬騙(positive bluffing),玩家假裝棋子的價值高於實際價值。 DeepNash用未知棋子Scout (2) 追逐對手的8,並假裝它是10。對手認為這個棋子可能是10,將其引導至Spy旁邊(可以捕獲10)。但是,為了奪取這枚棋子,對手的Spy輸給了DeepNash的Scout。
第二類唬騙為消極唬騙(negative bluffing),如下圖5b所示。它與積極唬騙相反,玩家假裝棋子的價值低於實際價值。
下圖5c展示了一個更複雜的bluff,其中DeepNash將其未公開的Scout (2)接近對手的10,這可以解釋為Spy。這種策略實際上允許藍方在幾步之後用7捕獲紅方的5,因此獲得material,阻止5捕獲Scout (2),並揭示它實際上並不是Spy。
以上是對人勝率84%,DeepMind AI首次在西洋陸軍棋中達到人類專家水平的詳細內容。更多資訊請關注PHP中文網其他相關文章!