首頁 > 科技週邊 > 人工智慧 > 當機器提前思考時:戰略AI的興起

當機器提前思考時:戰略AI的興起

王林
發布: 2025-02-26 03:06:12
原創
106 人瀏覽過

>戰略性AI

當機器提前思考時:戰略AI的興起

prologue

11。 1997年5月,紐約市。

>這是紐約市美麗的春天。天空很晴朗,溫度朝著20攝氏度攀升。洋基隊準備在洋基體育場扮演堪薩斯城皇家隊,遊騎兵在麥迪遜廣場花園對陣魔鬼。

>似乎沒有什麼與眾不同的,但是聚集在曼哈頓中城公平中心的人們即將體驗真正獨特的東西。他們將目睹這一歷史性活動,當時計算機首次在標準比賽條件下擊敗國際象棋的世界冠軍。 代表人類是加里·卡斯帕羅夫(Gary Kasparov),當時被廣泛認為是世界頂級國際象棋球員。代表機器,深藍色 - 由IBM開發的國際象棋計算機。進入比賽的最後和第六場比賽,兩名球員都得到2.5分。今天要決定獲勝者。

> gary最初是黑色的,但犯了一個早期的錯誤,並面臨著深藍色的強烈而激進的攻擊。經過19次移動,一切都結束了。卡斯帕羅夫(Kasparov)感到士氣低落,在壓力下辭職,認為自己的位置是站不住腳的。象徵性的,許多人被譽為人類和機器之間最重要的時刻之一是事實。這項具有里程碑意義的事件標誌著AI開發的轉折點,強調了戰略AI的潛力和挑戰。

簡介

>受生成AI的最新進步以及我自己的大型語言模型及其戰略能力的實驗的啟發,我越來越多地考慮戰略性AI。過去,我們如何嘗試處理這個話題?在我們擁有更具通才的戰略AI代理之前,還有什麼挑戰和要解決的問題? 作為數據科學家,我們越來越多地為客戶和雇主實施AI解決方案。對於整個社會而言,與AI的不斷增長的互動使了解AI,尤其是戰略性AI的發展至關重要。一旦我們擁有具有在戰略背景下操縱能力的自主代理人,這將對每個人都具有深遠的影響。

>但是,當我們說

戰略性ai當機器提前思考時:戰略AI的興起>時,我們到底是什麼意思?戰略性AI的核心涉及機器做出決定不僅考慮潛在行動,而且可以預料和影響他人的反應。這是關於在復雜,不確定的環境中最大化預期結果。

>在本文中,我們將定義戰略性AI,探討自1997年IBM Deep Blue Beat Kasparov以來的幾年來探索它的含義以及它的發展。我們將嘗試了解某些​​模型的一般體系結構,並且另外,還檢查了大型語言模型(LLM)的適合圖片。通過了解這些趨勢和發展,我們可以更好地為將自主AI代理融入社會的世界做準備。

定義戰略性AI

當機器提前思考時:戰略AI的興起涉及戰略AI的更深入的討論始於對該主題的良好定義。

>當我們在商業環境中考慮戰略時,我們通常傾向於將其與長期思維,資源分配和優化等主題聯繫在一起,對組織中的相互依存的整體理解,與目的和使命的決策保持一致公司等。儘管這些主題很有用,但在與AI和自主代理打交道時,我通常更喜歡對策略進行更多遊戲理論定義。在這種情況下,我們將戰略性定義為:

選擇一種行動方案,不僅要考慮自己的潛在行動,而且還要考慮其他人如何應對這些行動以及您的決策如何影響環境的整體動態,從而最大程度地提高了預期的回報。 >
>該定義的關鍵部分是戰略選擇是在真空中不出現的選擇,而是在其他參與者的背景下,無論是人類,組織還是其他AIS。這些其他實體可以擁有自己的類似或相互矛盾的目標,也可能試圖以戰略性地採取行動以促進自己的利益。

>此外,戰略選擇始終尋求最大化預期的收益,無論這些收益是根據貨幣,公用事業還是其他價值衡量標準。如果我們想結合與戰略相關的更傳統的“商業”主題,我們可以想像我們希望從現在起十年後最大化公司的價值。在這種情況下,要製定一個好的策略,我們需要採取“長期”觀點,並且還可以考慮公司的“目的和使命”,以確保與該戰略保持一致。但是,追求這些努力僅僅是它實際上採取戰略性行動的結果。

策略的遊戲理論觀點捕捉了戰略決策的本質,因此讓我們清楚地定義了戰略AI的含義。從定義來看,我們可以看到,如果AI系統或代理要以戰略性採取行動,則需要具有一些核心功能。具體來說,它需要能夠:
>
  • 模擬其他代理(使用預測技術或概率推理;這些代理是人類,AIS或組織的任何東西)。
  • > 基於預期實用程序。
  • >動態適應,因為他們收集有關其他代理策略的新信息。
  • >目前沒有眾所周知的或出版良好的系統,可以在現實世界中以自主的方式來製定所有這些行動。但是,鑑於AI系統的最新進展以及LLM的迅速增長可能會改變! 遊戲理論中的其他重要概念

在我們進一步討論戰略AI之前,回顧遊戲理論的某些概念和想法可能很有用。圍繞戰略AI所做的許多工作在遊戲理論概念中都有基礎,並且使用遊戲理論的定理可以表明某些屬性的存在,這些屬性使某些遊戲和情況比其他屬性更易於處理。它還有助於強調遊戲理論的某些缺點,並突出顯示我們可能會更好地朝其他方向尋求靈感的地方。

什麼是遊戲?

>

我們將游戲定義為包括三個關鍵組成部分的數學模型:> 當機器提前思考時:戰略AI的興起

玩家

:做出決定的個人或實體。

策略

:每個玩家可以採用的可能的動作或計劃。
  1. >收益:每個玩家根據所選策略獲得的獎勵或結果。
  2. 這種形式結構允許系統地研究戰略互動和決策過程。 有限與無限遊戲
  3. 在遊戲上講話時,查看有限遊戲和無限遊戲之間的區別也很有意義。
  4. 有限的遊戲具有固定的玩家,定義的規則和明確的終點。目的是獲勝,例如,包括國際象棋,GO,Checkers和大多數傳統棋盤遊戲。 另一方面,無限的遊戲沒有預定的端點,並且規則可以隨著時間的推移而發展。目標不是贏,而是繼續比賽。實際情況,例如商業競賽或社會發展,可以將其視為無限遊戲。冷戰可以看作是無限遊戲的一個例子。這是美國及其盟國(西部)與蘇聯及其盟國(東方)之間的漫長地緣政治鬥爭。衝突沒有固定的終點,隨著時間的流逝,策略和“規則”演變。 子遊戲
>有時我們可以在較大的遊戲環境中找到較小的遊戲。從數學上講,子遊戲本身就是獨立遊戲,並且需要滿足一些不同的標準:

  1. 一個子遊戲從玩家確切知道遊戲中的位置開始。
  2. 它包括從那時起可能隨之而來的所有可能的動作和結果。
  3. > 它涵蓋了所有玩家的知識和不確定性與這些行動有關的知識和不確定性。
  4. >如果我們想像一棵大樹代表整個遊戲,我們可以看到一個子遊戲。子遊戲類似於從特定點(節點)開始選擇此樹的分支,並包括從中延伸的所有內容,同時還確保了該分支中的任何不確定性。
子遊戲背後的核心思想使我們圍繞戰略AI的討論很有用。原因主要是因為玩家之間的某些無限遊戲可能非常複雜且難以建模,而如果我們選擇在該遊戲中查看較小的遊戲,那麼我們可以在應用遊戲理論分析的情況下取得更大的成功。

>以冷戰為無限遊戲的示例,我們可以在這種情況下識別幾個子遊戲。一些示例包括:

古巴導彈危機(1962):

>

參與者:美國和蘇聯。

  • 策略:美國考慮了從外交談判到軍事入侵的選擇,而蘇聯必須決定是去除導彈還是升級對抗。
  • >回報
  • :避免核戰爭,保持全球形象和戰略性軍事定位。
  • 柏林封鎖和空運(1948–1949):
  • >
球員

:西方盟友和蘇聯。 > >

>策略
    :蘇維埃阻止了柏林將盟軍推開,而盟軍則必須在放棄城市或通過空中供應城市之間做出決定。
  • 的回報:控制柏林,表現出政治決心並影響歐洲的一致性。
  • 當然很難處理,但兩個“子遊戲”都比對整個冷戰更容易分析和發展反應。他們有一組明確的球員,策略和回報有限,並且時間範圍更明確。這使它們都更適用於遊戲理論分析。 在戰略AI的背景下,分析這些子遊戲對於開發能夠在復雜,動態環境中做出最佳決策的智能係統至關重要。
  • 兩個玩家遊戲
  • >兩個玩家遊戲只是兩個玩家之間的遊戲。例如,這可能是兩個國際象棋球員之間的比賽,或者回到我們的冷戰例子,即西方與東方。遊戲中只有兩個玩家簡化了分析,但仍然捕獲了基本的競爭或合作動力。遊戲理論中的許多結果都基於兩個玩家遊戲。

    零和遊戲

    零和遊戲是遊戲的一個子集,其中一個玩家的收益是另一個玩家的損失。總的收益保持不變,並且球員們正在直接競爭。

    nash平衡和最佳動作

    NASH平衡(NE)是一組策略,沒有球員可以通過單方面改變自己的策略來獲得額外的好處,假設其他玩家保持自己的策略不變。在這種狀態下,每個玩家的策略是對其他策略的最佳反應,從而導致穩定的結果,沒有球員有動力偏離。 例如,在遊戲搖滾紙剪輯(RPS)中,NE是所有玩家都會隨機玩搖滾,紙和剪刀的狀態,每個州都有相同的概率。如果您作為玩家選擇玩NE策略,則確保沒有其他玩家可以利用您的比賽,而在兩個玩家的零和遊戲中,可以證明您不會在期望中輸掉,並且您可以做到的最糟糕的是均勻。

    但是,制定NE策略可能並不總是是最佳策略,尤其是如果您的對手以可預測的次級優勢進行比賽。考慮與兩個玩家A和B的場景。如果播放器B開始更多地播放紙,那麼玩家A可以識別出來並增加其剪刀的頻率。但是,這種與A的偏差再次可能被B再次利用,這可能會改變並發揮更多的岩石。 有關戰略性AI

    的關鍵要點

    回顧遊戲理論概念,似乎子遊戲的想法對於戰略AI特別有用。在較大的上下文中找到可能更小,更易於分析遊戲的能力使應用已知的解決方案和求解器變得更加容易。

    > 例如,假設您正在努力發展自己的職業生涯,這可能被歸類為無限的遊戲且難以“解決”,但突然間,您有機會談判新合同。這個談判過程為您的職業生涯提供了一個子遊戲的機會,對於使用遊戲理論概念的戰略AI來說,將更容易實現。

    的確,人類已經在我們生活中創造了數千年的子遊戲。大約1500年前,我們在印度創造了現在被稱為國際象棋的起源。事實證明,國際象棋是AI擊敗的挑戰,但也使我們開始開發更成熟的工具和技術,這些工具和技術可以用於更複雜且困難的戰略狀況。

    遊戲中戰略性AI的簡短歷史

    當機器提前思考時:戰略AI的興起

    >遊戲為開發戰略性AI提供了驚人的證據基礎。遊戲的封閉性質使訓練模型和開發解決方案技術比在開放式系統中更容易。遊戲明確定義;球員是已知的,收益也是如此。最大,最早的里程碑之一是Deep Blue,這是擊敗國際象棋世界冠軍的機器。

    早期里程碑:深藍色

    Deep Blue是IBM在1990年代開發的象棋超級計算機。正如序言中所述,它在1997年5月在六場比賽中擊敗了統治世界國際象棋冠軍加里·卡斯帕羅夫(Garry Kasparov),創造了歷史。深藍色利用專門的硬件和算法,能夠評估每秒2億個國際象棋位置。它將蠻力搜索技術與啟發式評估功能相結合,使其能夠比以前的任何系統更深入地搜索潛在的移動序列。使深藍色與眾不同的是它能夠快速處理大量位置,有效地處理國際象棋的組合複雜性並標誌著人工智能的重要里程碑。 但是,正如加里·卡斯帕羅夫(Gary Kasparov)在接受萊克斯·弗里德曼(Lex Fridman)採訪時所指出的那樣,深藍色比其他任何事情都更像是一台蠻力的機器,因此也許很難將其視為任何類型的智能。搜索的核心基本上只是反複試驗。說到錯誤,這比人類的錯誤要少得多,根據Kasparov的說法,這是難以擊敗的功能之一。

    > 複雜遊戲中的進步

    :alphago

    >在國際象棋深藍色勝利19年後,Google DeepMind的一支團隊產生了另一個模型,這將有助於AI歷史上的特殊時刻。在2016年,阿爾法戈(Alphago)成為第一個擊敗世界冠軍GO球員李·塞多爾(Lee Sedol)的AI模型。 > GO是一款非常古老的棋盤遊戲,起源於亞洲,以其深厚的複雜性和大量可能的位置而聞名,遠遠超過了國際象棋。 Alphago將深層神經網絡與蒙特卡洛樹搜索相結合,使其可以有效地評估位置和計劃移動。推斷時給出的alphago的時間越多,它的性能就越好。 > 在人類專家遊戲數據集上訓練的AI

    通過自我玩法進一步改進。使Alphago與眾不同的是它可以處理GO的複雜性的能力,利用先進的機器學習技術來實現以前認為對AI掌握能力的域中的超人性能。

    >

    人們可能會爭辯說,鑑於其具有出色的評估董事會狀態和選擇動作的能力,因此alphago具有比深藍色更多的智能。從2016年對陣Lee Sedol的比賽中移動37是一個典型的例子。對於那些熟悉GO的人來說,這是第五線的肩膀,最初令人困惑的評論員,包括李·塞多爾本人。但是,正如後來變得很清楚的那樣,此舉是一場出色的戲劇,並展示了Alphago將如何探索人類玩家可能會忽略和無視的策略。

    >

    組合國際象棋和GO:alphazero

    > 一年後,Google DeepMind再次成為頭條新聞。這次,他們從Alphago中接受了許多學習,並創建了Alphazero,這更像是掌握國際象棋以及GO和Shogi的通用AI系統。研究人員能夠僅通過自我競爭和增強學習就可以在沒有人類知識或數據的情況下建立AI。與依靠手工評估功能和廣泛開放庫的傳統國際象棋引擎不同,Alphazero使用了深層神經網絡和一種新穎的算法,將蒙特卡洛樹搜索與自學習結合在一起。

    >

    該系統僅從基本規則開始,並通過與自身玩數百萬遊戲來學習最佳策略。使Alphazero與眾不同的原因是它可以發現創造性和高效的策略,展示AI中的新範式,該範式利用自我學習而不是人工設計的知識。

    >

    整合速度和策略:Star Craft II

    > Google DeepMind團隊繼續在AI領域的統治地位,將其重點轉移到了非常受歡迎的電腦遊戲《星際爭霸II》上。在2019年,他們開發了一個名為Alphastar²的AI,能夠實現大師級比賽,並在競爭性排行榜上排名超過99.8%的人類球員。

    通過構建為以前的AIS開發的一些技術,例如通過自我播放和深度神經網絡學習的強化學習,該團隊能夠製造出獨特的遊戲引擎。首先,他們使用有監督的學習和人類游戲訓練了神經網。然後,他們將其用來播種另一種可以在多代理遊戲框架中對抗自己的算法。 DeepMind團隊創建了一個虛擬聯盟,代理商可以探索彼此的策略,以及將獲得主導策略的獎勵。最終,他們將聯盟的策略結合在一起,成為一種超級戰略,可以對許多不同的對手和策略有效。用他們自己的話:

    >>>最終的字母代理由聯盟納什分佈的組成部分組成 - 換句話說,這是發現的策略最有效的混合物 - 在單個桌面GPU上運行。 >

    >深探究pluribus和Poker

    > 我喜歡玩撲克,當我在Trondheim生活和學習時,我們曾經有一個每週的現金遊戲,這可能會變得非常激烈!戰略AI黯然失色的最後一個里程碑之一是撲克遊戲。具體而言,在最受歡迎的撲克形式之一中,6名玩家無限的德克薩斯州Hold’em。在此遊戲中,我們使用帶有52張卡片的常規卡片牌,並且該劇遵循以下結構:>

    >

    preflop:

    >所有玩家都獲得了2張卡片(孔卡),只有他們自己才知道。
      >
    1. 觸摸: 3張卡片被繪製並朝上張開,以便所有玩家都可以看到它們。 >
    2. 轉彎:繪製另一張卡片並朝上放置。
    3. 河流:>繪製最後的第五張卡片並張開。
    4. >玩家可以使用桌子上的卡片,手上的兩個卡片來組裝5卡撲克手。對於每一輪比賽,玩家輪流下注,如果一個玩家下注,沒有其他人願意打電話。 儘管學習相當簡單,但人們只需要了解各種撲克手的層次結構,但是,儘管數十年來一直在進行努力,但該遊戲被證明很難解決。

      >有多種因素導致難以解決撲克的困難。首先,我們有隱藏信息的問題,因為您不知道其他玩家擁有哪些卡。其次,我們有一個具有許多玩家的多人遊戲設置,每個額外的播放器都會以指數方式增加可能的交互和策略。第三,我們有無限制的投注規則,該規則允許一個複雜的投注結構,其中一個玩家可以突然決定下注他的整個堆棧。第四,由於孔卡,社區卡和投注序列的組合,我們具有巨大的遊戲樹複雜性。此外,由於卡的隨機性,虛張聲勢和對手建模!

      >直到2019年,一些研究人員Noam Brown和Tuomas Sandholm才終於破解了代碼。在科學上發表的一篇論文中,他們描述了一個小說的撲克AI - pluribus - 在6名玩家無限制的德克薩斯州Hold'em中擊敗了世界上最好的球員。撲克手,兩個實驗清楚地表明了pluribus的主導地位。

      > 在第一個實驗中,Pluribus與5個人類對手進行了比賽,平均獲勝率為48 Mbb/game,標準偏差為25 Mbb/game。 (MBB/遊戲代表每場比賽Milli Big Blind,每次玩1000場比賽將贏得多少個大百葉窗。)48 MBB/遊戲被認為是非常高的勝利率,尤其是在精英撲克玩家中,這意味著Pluribus比Pluribus強人類對手。

      在第二個實驗中,研究人員有5個版本的Pluribus對1人進行比賽。他們設置了實驗,以使2個不同的人每人在5台機器上播放5000手。 Pluribus最終以平均32 MBB/遊戲擊敗人類,標準錯誤為15 MBB/遊戲,再次顯示出其戰略優勢。
      1. 使用兩種不同的算法來評估移動。他們將首先使用一種所謂的“藍圖策略”,該策略是通過使用一種稱為Monte Carlo反事實遺憾最小化的方法對其進行對抗而創建的。這種藍圖策略將在第一輪投注中使用,但是在隨後的投注賽中,Pluribus進行了實時搜索以找到更好的更精細的策略。 為了使其實時搜索算法在計算上更加有效,他們將使用限制搜索並評估對手可能選擇播放的4種不同可能的策略。首先,他們將評估每種策略的兩個策略。此外,他們只會評估對手的四種不同策略,包括原始的藍圖策略,一種偏向折疊的藍圖策略,一種偏見的藍圖策略以及偏向提升的最終藍圖策略。
      2. >他們還使用了各種抽象技術來減少可能的遊戲狀態數量。例如,由於9高直線與8高直的直線相似,因此可以以類似的方式查看。
    5. >此外,pluribus還通過其彈奏的任何手來平衡其策略,它也將考慮在這種情況下它可能擁有的其他可能的手,並評估它將如何踢手,以便最後一場比賽將是保持平衡,因此很難反駁。
    6. >從pluribus中有很多有趣的觀察結果,但最有趣的是,它並沒有改變與不同的對手的作用,而是製定了一種強大的策略,該策略對各種玩家有效。由於許多撲克玩家認為他們必須將自己的比賽調整為各種情況和人,因此Pluribus向我們展示了這是不需要的,甚至可能不是最佳的,因為它是如何擊敗其與之抗衡的所有人類的。
    7. >在我們簡短地涉足遊戲理論中,我們指出,如果您在兩人零和遊戲中使用NE策略,則可以保證您不會在期望中輸掉。但是,對於像6玩撲克這樣的多人遊戲,沒有這樣的保證。 Noam Brown推測,可能是像撲克這樣的遊戲的對抗性,這仍然使嘗試通過NE策略對其進行處理。相反,在像風險這樣的遊戲中,玩家可以進行更多合作,無法確保使用NE策略,因為,如果您與6個人一起玩風險遊戲,那麼如果您的5個對手決定抓緊夥伴,您將無能為力在你身上殺死你。
    8. 評估戰略AI 的趨勢

      >總結遊戲中戰略性AI的歷史,我們看到了明顯的趨勢。這些遊戲正在緩慢但肯定變得越來越接近人類每天發現的現實戰略狀況。

      >首先,我們正在從兩個玩家轉移到多人遊戲設置。從兩人遊戲中的最初成功到6-玩家撲克等多人遊戲。其次,我們看到使用隱藏信息的遊戲掌握的掌握有所增加。第三,我們還看到掌握更多隨機元素的掌握。

      >

      隱藏的信息,多人遊戲設置和隨機事件是人類戰略互動的常態,因此掌握這些複雜性是實現可以在現實世界中導航的更通用的超人戰略AI的關鍵。

      大型語言模型和戰略性AI

      >我最近進行了一個實驗,讓LLMS互相發揮董事會風險。我對實驗的目的是評估LLM在戰略環境中的表現,更少的開箱即用。但是,給代理商提供了很多詳細的提示,以提供正確的環境,但也許毫不奇怪,LLM的性能相當平庸。

      > 當機器提前思考時:戰略AI的興起>您可以在此處找到有關該實驗的文章:

      >在風險遊戲設置中探索LLM的戰略能力
      >總結了實驗中的一些關鍵發現,當前一代的LLMS與強化和認可獲勝的動作等基本戰略概念鬥爭。當他們這樣做在戰略上是有益的,他們也無法消除其他玩家。

      >上面的實驗表明,即使我們看到LLM的快速改善,它們仍然缺乏戰略推理的複雜性。鑑於他們的一般培訓數據以及如何構建它們,這並不令人驚訝。 > 那麼,他們如何適應圍繞戰略AI的討論?要了解這一點,我們需要了解LLM的真正出色。 LLM的最有希望的功能也許是它們消化和產生大量文本的能力。現在,也有了多模型,視頻和音頻。換句話說,LLM非常適合與人類和其他背景下的現實世界互動。最近,META的AI團隊能夠將語言模型的一般語言能力與戰略引擎的戰略見解相結合。

      案例研究:西塞羅和外交

      外交遊戲是2至7玩家策略遊戲,Meta將其描述為風險,撲克和電視節目倖存者之間的混合。球員們從歐洲地圖上開始。 1900年,目的是獲得對大多數供應中心的控制權。具體而言,玩家旨在控制34個供應中心中的18個以取得勝利。通過這樣做,一名球員有效地主導著地圖,代表了在第一次世界大戰之前的那個時期,代表了其國家在歐洲的上升。

      與我們迄今為止討論的其他許多遊戲不同的是,它依賴玩家之間的談判。這是一種比撲克更合作的遊戲形式。每個玩家在每回合之前都使用自然語言與其他玩家進行交流,他們計劃彼此盟友。準備工作完成後,所有玩家都會同時揭示他們的計劃,並執行回合。這種類型的遊戲顯然類似於實際的外交和現實生活中的談判比大多數其他棋盤遊戲更接近,但是由於具有自然語言組成部分,AI很難掌握。

      >在2022年,META的AI團隊開發Cicero時發生了變化。使用語言建模方面的最新進步,再加上戰略模塊,Cicero是一種遊戲引擎,能夠取得超過“人類玩家的平均得分的兩倍,並排名前10%的參與者,他們玩了超過一場比賽。”⁶正如Meta所描述的那樣,他們的模型能夠產生策略的對話並產生對話Aware-trategy。 Cicero與其他戰略AI模型之間的差異

      >外交與我們最近有戰略性AI進步的其他一些遊戲之間存在一些關鍵差異。最值得注意的是遊戲的合作性質 - 與其他遊戲的對抗性相比,以及它使用的開放式自然語言格式。我認為這些差異使遊戲更像是真正的人類互動,但是它也對研究如何訓練算法的算法構成了限制。 與Pluribus和Alphazero不同,Cicero不是主要通過自我播放和增強學習來訓練的。取而代之的是,元小組使用了一個數據集,其中包含超過125,000場遊戲和40,000,000條消息來幫助訓練該算法。他們認為,鑑於遊戲的談判,說服和建立信任的方面,如果讓AI通過自我玩法與自己進行談判,他們可能會看到奇怪的行為,並且可能不會捕捉人類互動的本質。引用他們的研究文章:

      “……我們發現,在2P0S版本中實現超人性能的自我遊戲算法在與潛在人類盟友的規範和期望不一致的遊戲中的遊戲中表現不佳。 “

      但是,使用強化學習來訓練一部分策略引擎,特別是用於訓練西塞羅的價值功能 - 它需要預測其行動的實用性。研究人員使用了修改版的行為克隆PIKL,該版本旨在最大化行動中的預期效用,同時最大程度地減少了與人類行為的差異。同時保持與人類行為的差距。

      上述外交特徵突出了一些與創建可以在現實世界中人類環境中運作的戰略AI相關的重要問題,並且在我們評估戰略AI將如何發展時,需要考慮到。

      戰略AI

      的未來

      但是,預測未來總是很棘手的,但是一種方法是使用當前的趨勢並推斷為未來的情況。下面,我們研究了一些與我們以前的討論密切相關的主題,並評估它們如何影響戰略AI的未來。

      一般的符號策略引擎與專用模塊 當機器提前思考時:戰略AI的興起如果我們迄今為止檢查戰略性AI發動機的軌跡,那麼讓我們引起我們的一件事是每個遊戲引擎的專業化。即使體系結構可能相似 - 就像Alphazero學習如何玩多個不同的遊戲一樣,AI仍然可以在每個特定遊戲中玩數百萬遊戲。對於國際象棋而言,Alphazero打了4400萬場比賽,對於1.3億場比賽! ⁷自然的問題是,我們是否應該嘗試構建更多的通用策略引擎或繼續專注於特定任務的專業模塊?

      >一般的戰略引擎將旨在理解和應用不同情況下的廣泛戰略原則。也許通過創建捕獲人類戰略互動的許多方面的遊戲,AI可以通過對抗自己的遊戲來學習並製定適用於現實情況的策略。這種方法可以幫助AI概括其學習,從而在各種情況下有用。另一方面,專門的模塊是為特定場景或任務設計的AI系統。我們可以設想我們可以通過組合多個專業代理來創建一般的戰略AI。 AI代理可以在每個特定領域進行訓練,從而提供最需要的深厚專業知識。儘管此方法可能會限制AI概括的能力,但它可以確保在特定域中的高性能,這可以更快地導致實際應用。

      鑑於我們在合作環境中使用AI進行自我播放的問題- 正如我們在外交所觀察到的那樣- 當前的趨勢似乎對不同的戰略情況有利於專門的模塊,在不久的將來,我們似乎很可能會專業化不同上下文的戰略模塊。但是,人們還可以設想一個混合系統,我們使用通用策略引擎來提供有關更廣泛主題的見解,而專門的模塊則應對複雜的特定挑戰。這種平衡可以使AI系統在適應特定情況的細節的同時應用一般的戰略見解。

      llms橋接戰略模塊和現實世界應用之間的差距 大型語言模型已經改變了AI與人類語言互動的方式,提供了一種將戰略AI模塊與現實世界用例相關聯的強大方法。 LLM擅長理解和生成類似人類的文本,使其成為中介,可以將現實世界的情況轉化為策略引擎可以處理的結構化數據。正如Meta的Cicero所看到的那樣,LLM與戰略推理相結合,使AI可以理解人類的交流,談判和計劃行動。

      鑑於當前的多模型模型的趨勢,LLM越來越能夠不僅將文本,而且任何現實世界的上下文轉換為機器可讀語法。這使得模型更具用作中介。 >如果我們建立在Cicero開發的想法的基礎上,我們還可以設想針對特定任務(例如外交溝通)進行微調模型,也許是通過對歷史外交通信的模型進行微調,然後訓練單獨的策略引擎以進行培訓採用最佳動作。

      人類協作:Centaur Model

      >

      戰略AI的未來不僅僅是機器接管決策;在過渡期間,這也是關於人類和人工智學的有效共同努力的。這種夥伴關係通常稱為“半人馬模型”,將人類直覺與AI的計算能力相結合。在這種模型中,人類帶來了創造力,道德判斷和靈活性,而AI系統則提供了強大的數據處理和戰略原則的一致應用。該模型的現實世界示例包括人類團隊表現優於人類或單獨工作的機器的領域。例如,在國際象棋中,加里·卡斯帕羅夫(Garry Kasparov)提倡與AI合作的想法,將人類戰略見解與AI的精確計算相結合。直到程序開始變得非常好,直到程序開始變得非常好,Centaur模型似乎在國際象棋中效果很好。到那時,人類的貢獻不值得,在最壞的情況下有害。 但是,在其他更開放式和現實世界的領域,半人馬模型可能是一個不錯的選擇。只需考慮人類與現代LLM的合作有可能大大提高生產率的潛力。

      這種協作方法通過將人類判斷力與AI分析相結合,改善了決策,可能會導致更明智和平衡的結果。它可以快速適應新的和意外的情況,因為人類可以在AI支持的情況下實時調整策略。

      現實世界的應用程序

      >

      遊戲一直是開發戰略性AI的一個很好的測試基礎,但真正的影響來自將這些進步應用於現實世界中的挑戰。下面我們重點介紹了一些示例。

      在過去幾年中,一個巨大發展的領域是自動駕駛汽車,以及他們如何使用戰略AI安全地駕駛道路。他們必須預測並回應其他駕駛員,行人和騎自行車的人的行為。例如,一輛自動駕駛汽車需要預見行人是否即將過馬路,或者是否會意外地改變車道。 >就在今年,Waymo(一家開發自動駕駛汽車和乘車服務的公司)開始在美國三個城市使用完全自主出租車:鳳凰城,亞利桑那州,加利福尼亞州的洛杉磯和舊金山。在接下來的幾年中 在金融市場中,AI驅動的交易系統分析了大量數據以做出投資決策。這些系統考慮了其他市場參與者的可能行動,例如交易者和機構預測市場變動。他們使用戰略推理來執行最大收益的交易,同時最大程度地減少風險,通常在高度波動的環境中。 AI系統還通過考慮供應商,競爭對手和客戶的行動來優化供應鏈。他們可以根據預期的需求和競爭對手的行為來戰略性地調整生產計劃,庫存水平和物流。例如,如果競爭對手有望推出新產品,AI可以建議提高庫存水平以滿足潛在需求的增加。戰略AI也用於有效地管理能量分佈。智能電網採用AI來預測消費模式並相應調整供應。他們考慮消費者如何根據定價信號或環境因素來改變其使用情況。 AI從戰略上分配資源來平衡負載,防止中斷和整合可再生能源。

      上面的示例清楚地表明瞭如何將戰略性AI集成到各個行業和領域。通過考慮他人的行動,這些AI系統做出明智的決策,以優化結果,提高效率並經常提供競爭優勢。隨著戰略性AI的繼續改善,這些系統也將會改善,我們也可能會看到它們在許多其他領域的出現。

      結論

      自從Deep Blue擊敗Garry Kasparov以來,戰略AI已經走了很長一段路。從掌握複雜的棋盤遊戲到進行類似人類的談判,AI系統越來越表現出戰略性的推理能力。 在本文中,我們研究了戰略AI的基礎概念,強調了遊戲理論的重要性以及如何將領域的某些概念應用於戰略AI。我們還研究了專門的AI系統如何通過專注於狹窄的域和廣泛的自我播放來在特定遊戲中取得超人的性能。這就提出了一個問題,即戰略AI的未來是否在於開發能夠更廣泛應用或繼續使用針對特定任務量身定制的專業模塊的一般符號戰略引擎。 正如我們在西塞羅(Cicero)所看到的那樣,語言模型也可能在戰略AI的空間中擁有未來。來自OpenAI,Anthropic和Meta等提供商的新模型比以往任何時候都更容易將這些工具集成到自主代理中,這些工具可以使用它們將真實世界轉化為AI Systems可以處理的結構化數據。 但是,可以駕駛現實世界複雜性的通用戰略AI的旅程才剛剛開始。在開發可以跨越領域,適應不可預見的情況並將道德考慮的系統推廣到其決策過程中的系統中,挑戰仍然存在。

      感謝您的閱讀!

      每當我發表新文章時,都想通知當機器提前思考時:戰略AI的興起>

      >嗎? ➡️在這裡訂閱我的新聞通訊⬅️。它是免費的,您可以隨時取消訂閱!

      >

      >

      如果您喜歡閱讀這篇文章,並且想從我這裡訪問更多內容/或通過https://www.ekneconsulting.com/訪問我的網頁,以探索我提供的一些服務。不要猶豫,通過電子郵件[電子郵件受保護]

      >通過電子郵件聯繫

      參考

      1. Lex Fridman。 (2019年10月27日)。 Garry Kasparov:國際象棋,深藍色,AI和普京| Lex Fridman播客#46 [視頻文件]。 Youtube. https://youtu.be/8rva0thwuww?si = 1ercnwlan4myok9w
      2. Vinyals,O。 ,Babuschkin,I.,Czarnecki,W.M。使用多機構增強學習,Starcraft II中的
      3. 等人自然575,350–354(2019)。 https://doi.org/10.1038/s41586-019-1724-z > https://deepmind.google/discover/blog/alphastar-mastering-the-real time-strategy-game-starcraft-ii/
      4. > Brown等。 (2019年8月30日)。多人撲克的超人AI。
      5. Science 365,885–890,(2019)。
      6. Lex Fridman。 (2022年12月6日)。諾阿姆·布朗(Noam Brown):撲克中的人工智能和戰略談判遊戲中的人類| Lex Fridman播客#344 [視頻文件]。 Youtube. https://youtu.be/2ohh4acljqs?si = ave_esb42gngiprg > meta基本AI研究外交團隊(公平)†
      7. 等,
      8. 人類級別的比賽在>外交遊戲中,通過將語言模型與戰略推理相結合。
      9. 科學。 > 378,1067 1074(2022).doi:10.1126/science.ade.ade9097, https://noambrown.github.io/papers/22-science-diplomacy-tr.pdf > David Silver等。 ,一種通用的強化學習算法,掌握了國際象棋,shogi並通過自我播放。 AAR6404 https://storage.googleapis.com/deepmind-media/deepmind.com/blog/alphazero-shedding-new-light-new-new-new-chess-shog-ang-ang-and-go/alphazero_preprint.pdf >

以上是當機器提前思考時:戰略AI的興起的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板