当机器提前思考时：战略AI的兴起-人工智能-PHP中文网

>战略性AI

prologue

11。 1997年5月，纽约市。

零和游戏

游戏中战略性AI的简短历史

组合国际象棋和GO：alphazero

>我最近进行了一个实验，让LLMS互相发挥董事会风险。我对实验的目的是评估LLM在战略环境中的表现，更少的开箱即用。但是，给代理商提供了很多详细的提示，以提供正确的环境，但也许毫不奇怪，LLM的性能相当平庸。

案例研究：西塞罗和外交

感谢您的阅读！

参考

首页

科技周边

人工智能

当机器提前思考时：战略AI的兴起

王林

Feb 26, 2025 am 03:06 AM

>战略性AI

prologue

11。 1997年5月，纽约市。

>这是纽约市美丽的春天。天空很晴朗，温度朝着20摄氏度攀升。洋基队准备在洋基体育场扮演堪萨斯城皇家队，游骑兵在麦迪逊广场花园对阵魔鬼。

>似乎没有什么与众不同的，但是聚集在曼哈顿中城公平中心的人们即将体验真正独特的东西。他们将目睹这一历史性活动，当时计算机首次在标准比赛条件下击败国际象棋的世界冠军。代表人类是加里·卡斯帕罗夫（Gary Kasparov），当时被广泛认为是世界顶级国际象棋球员。代表机器，深蓝色 - 由IBM开发的国际象棋计算机。进入比赛的最后和第六场比赛，两名球员都得到2.5分。今天要决定获胜者。

> gary最初是黑色的，但犯了一个早期的错误，并面临着深蓝色的强烈而激进的攻击。经过19次移动，一切都结束了。卡斯帕罗夫（Kasparov）感到士气低落，在压力下辞职，认为自己的位置是站不住脚的。象征性的，许多人被誉为人类和机器之间最重要的时刻之一是事实。这项具有里程碑意义的事件标志着AI开发的转折点，强调了战略AI的潜力和挑战。

简介

>受生成AI的最新进步以及我自己的大型语言模型及其战略能力的实验的启发，我越来越多地考虑战略性AI。过去，我们如何尝试处理这个话题？在我们拥有更具通才的战略AI代理之前，还有什么挑战和要解决的问题？作为数据科学家，我们越来越多地为客户和雇主实施AI解决方案。对于整个社会而言，与AI的不断增长的互动使了解AI，尤其是战略性AI的发展至关重要。一旦我们拥有具有在战略背景下操纵能力的自主代理人，这将对每个人都具有深远的影响。

>但是，当我们说

战略性ai

>时，我们到底是什么意思？战略性AI的核心涉及机器做出决定不仅考虑潜在行动，而且可以预料和影响他人的反应。这是关于在复杂，不确定的环境中最大化预期结果。

>在本文中，我们将定义战略性AI，探讨自1997年IBM Deep Blue Beat Kasparov以来的几年来探索它的含义以及它的发展。我们将尝试了解某些模型的一般体系结构，并且另外，还检查了大型语言模型（LLM）的适合图片。通过了解这些趋势和发展，我们可以更好地为将自主AI代理融入社会的世界做准备。

定义战略性AI

涉及战略AI的更深入的讨论始于对该主题的良好定义。

>当我们在商业环境中考虑战略时，我们通常倾向于将其与长期思维，资源分配和优化等主题联系在一起，对组织中的相互依存的整体理解，与目的和使命的决策保持一致公司等。尽管这些主题很有用，但在与AI和自主代理打交道时，我通常更喜欢对策略进行更多游戏理论定义。在这种情况下，我们将战略性定义为：

选择一种行动方案，不仅要考虑自己的潜在行动，而且还要考虑其他人如何应对这些行动以及您的决策如何影响环境的整体动态，从而最大程度地提高了预期的回报。 >

>该定义的关键部分是战略选择是在真空中不出现的选择，而是在其他参与者的背景下，无论是人类，组织还是其他AIS。这些其他实体可以拥有自己的类似或相互矛盾的目标，也可能试图以战略性地采取行动以促进自己的利益。
>此外，战略选择始终寻求最大化预期的收益，无论这些收益是根据货币，公用事业还是其他价值衡量标准。如果我们想结合与战略相关的更传统的“商业”主题，我们可以想象我们希望从现在起十年后最大化公司的价值。在这种情况下，要制定一个好的策略，我们需要采取“长期”观点，并且还可以考虑公司的“目的和使命”，以确保与该战略保持一致。但是，追求这些努力仅仅是它实际上采取战略性行动的结果。
策略的游戏理论观点捕捉了战略决策的本质，因此让我们清楚地定义了战略AI的含义。从定义来看，我们可以看到，如果AI系统或代理要以战略性采取行动，则需要具有一些核心功能。具体来说，它需要能够：

模拟其他代理（使用预测技术或概率推理；这些代理是人类，AIS或组织的任何东西）。
>动态适应，因为他们收集有关其他代理策略的新信息。
>目前没有众所周知的或出版良好的系统，可以在现实世界中以自主的方式来制定所有这些行动。但是，鉴于AI系统的最新进展以及LLM的迅速增长可能会改变！游戏理论中的其他重要概念

在我们进一步讨论战略AI之前，回顾游戏理论的某些概念和想法可能很有用。围绕战略AI所做的许多工作在游戏理论概念中都有基础，并且使用游戏理论的定理可以表明某些属性的存在，这些属性使某些游戏和情况比其他属性更易于处理。它还有助于强调游戏理论的某些缺点，并突出显示我们可能会更好地朝其他方向寻求灵感的地方。

什么是游戏？

>

我们将游戏定义为包括三个关键组成部分的数学模型：> 当机器提前思考时：战略AI的兴起

玩家

：做出决定的个人或实体。

策略

：每个玩家可以采用的可能的动作或计划。

>收益：每个玩家根据所选策略获得的奖励或结果。
这种形式结构允许系统地研究战略互动和决策过程。 有限与无限游戏
有限的游戏具有固定的玩家，定义的规则和明确的终点。目的是获胜，例如，包括国际象棋，GO，Checkers和大多数传统棋盘游戏。另一方面，无限的游戏没有预定的端点，并且规则可以随着时间的推移而发展。目标不是赢，而是继续比赛。实际情况，例如商业竞赛或社会发展，可以将其视为无限游戏。冷战可以看作是无限游戏的一个例子。这是美国及其盟国（西部）与苏联及其盟国（东方）之间的漫长地缘政治斗争。冲突没有固定的终点，随着时间的流逝，策略和“规则”演变。子游戏

>有时我们可以在较大的游戏环境中找到较小的游戏。从数学上讲，子游戏本身就是独立游戏，并且需要满足一些不同的标准：

一个子游戏从玩家确切知道游戏中的位置开始。
> 它涵盖了所有玩家的知识和不确定性与这些行动有关的知识和不确定性。

子游戏背后的核心思想使我们围绕战略AI的讨论很有用。原因主要是因为玩家之间的某些无限游戏可能非常复杂且难以建模，而如果我们选择在该游戏中查看较小的游戏，那么我们可以在应用游戏理论分析的情况下取得更大的成功。

>以冷战为无限游戏的示例，我们可以在这种情况下识别几个子游戏。一些示例包括：

古巴导弹危机（1962）：

参与者：美国和苏联。

策略：美国考虑了从外交谈判到军事入侵的选择，而苏联必须决定是去除导弹还是升级对抗。
：避免核战争，保持全球形象和战略性军事定位。
>

球员

：西方盟友和苏联。> >

>策略

的回报：控制柏林，表现出政治决心并影响欧洲的一致性。
当然很难处理，但两个“子游戏”都比对整个冷战更容易分析和发展反应。他们有一组明确的球员，策略和回报有限，并且时间范围更明确。这使它们都更适用于游戏理论分析。在战略AI的背景下，分析这些子游戏对于开发能够在复杂，动态环境中做出最佳决策的智能系统至关重要。
>两个玩家游戏只是两个玩家之间的游戏。例如，这可能是两个国际象棋球员之间的比赛，或者回到我们的冷战例子，即西方与东方。游戏中只有两个玩家简化了分析，但仍然捕获了基本的竞争或合作动力。游戏理论中的许多结果都基于两个玩家游戏。
零和游戏

零和游戏是游戏的一个子集，其中一个玩家的收益是另一个玩家的损失。总的收益保持不变，并且球员们正在直接竞争。
nash平衡和最佳动作
NASH平衡（NE）是一组策略，没有球员可以通过单方面改变自己的策略来获得额外的好处，假设其他玩家保持自己的策略不变。在这种状态下，每个玩家的策略是对其他策略的最佳反应，从而导致稳定的结果，没有球员有动力偏离。例如，在游戏摇滚纸剪辑（RPS）中，NE是所有玩家都会随机玩摇滚，纸和剪刀的状态，每个州都有相同的概率。如果您作为玩家选择玩NE策略，则确保没有其他玩家可以利用您的比赛，而在两个玩家的零和游戏中，可以证明您不会在期望中输掉，并且您可以做到的最糟糕的是均匀。
但是，制定NE策略可能并不总是是最佳策略，尤其是如果您的对手以可预测的次级优势进行比赛。考虑与两个玩家A和B的场景。如果播放器B开始更多地播放纸，那么玩家A可以识别出来并增加其剪刀的频率。但是，这种与A的偏差再次可能被B再次利用，这可能会改变并发挥更多的岩石。有关战略性AI
的关键要点
回顾游戏理论概念，似乎子游戏的想法对于战略AI特别有用。在较大的上下文中找到可能更小，更易于分析游戏的能力使应用已知的解决方案和求解器变得更加容易。
> 例如，假设您正在努力发展自己的职业生涯，这可能被归类为无限的游戏且难以“解决”，但突然间，您有机会谈判新合同。这个谈判过程为您的职业生涯提供了一个子游戏的机会，对于使用游戏理论概念的战略AI来说，将更容易实现。
的确，人类已经在我们生活中创造了数千年的子游戏。大约1500年前，我们在印度创造了现在被称为国际象棋的起源。事实证明，国际象棋是AI击败的挑战，但也使我们开始开发更成熟的工具和技术，这些工具和技术可以用于更复杂且困难的战略状况。
游戏中战略性AI的简短历史

>游戏为开发战略性AI提供了惊人的证据基础。游戏的封闭性质使训练模型和开发解决方案技术比在开放式系统中更容易。游戏明确定义；球员是已知的，收益也是如此。最大，最早的里程碑之一是Deep Blue，这是击败国际象棋世界冠军的机器。

早期里程碑：深蓝色
Deep Blue是IBM在1990年代开发的象棋超级计算机。正如序言中所述，它在1997年5月在六场比赛中击败了统治世界国际象棋冠军加里·卡斯帕罗夫（Garry Kasparov），创造了历史。深蓝色利用专门的硬件和算法，能够评估每秒2亿个国际象棋位置。它将蛮力搜索技术与启发式评估功能相结合，使其能够比以前的任何系统更深入地搜索潜在的移动序列。使深蓝色与众不同的是它能够快速处理大量位置，有效地处理国际象棋的组合复杂性并标志着人工智能的重要里程碑。但是，正如加里·卡斯帕罗夫（Gary Kasparov）在接受莱克斯·弗里德曼（Lex Fridman）采访时所指出的那样，深蓝色比其他任何事情都更像是一台蛮力的机器，因此也许很难将其视为任何类型的智能。搜索的核心基本上只是反复试验。说到错误，这比人类的错误要少得多，根据Kasparov的说法，这是难以击败的功能之一。
> 复杂游戏中的进步

：alphago
>在国际象棋深蓝色胜利19年后，Google DeepMind的一支团队产生了另一个模型，这将有助于AI历史上的特殊时刻。在2016年，阿尔法戈（Alphago）成为第一个击败世界冠军GO球员李·塞多尔（Lee Sedol）的AI模型。 > GO是一款非常古老的棋盘游戏，起源于亚洲，以其深厚的复杂性和大量可能的位置而闻名，远远超过了国际象棋。 Alphago将深层神经网络与蒙特卡洛树搜索相结合，使其可以有效地评估位置和计划移动。推断时给出的alphago的时间越多，它的性能就越好。> 在人类专家游戏数据集上训练的AI
通过自我玩法进一步改进。使Alphago与众不同的是它可以处理GO的复杂性的能力，利用先进的机器学习技术来实现以前认为对AI掌握能力的域中的超人性能。
>

人们可能会争辩说，鉴于其具有出色的评估董事会状态和选择动作的能力，因此alphago具有比深蓝色更多的智能。从2016年对阵Lee Sedol的比赛中移动37是一个典型的例子。对于那些熟悉GO的人来说，这是第五线的肩膀，最初令人困惑的评论员，包括李·塞多尔本人。但是，正如后来变得很清楚的那样，此举是一场出色的戏剧，并展示了Alphago将如何探索人类玩家可能会忽略和无视的策略。
>
组合国际象棋和GO：alphazero
> 一年后，Google DeepMind再次成为头条新闻。这次，他们从Alphago中接受了许多学习，并创建了Alphazero，这更像是掌握国际象棋以及GO和Shogi的通用AI系统。研究人员能够仅通过自我竞争和增强学习就可以在没有人类知识或数据的情况下建立AI。与依靠手工评估功能和广泛开放库的传统国际象棋引擎不同，Alphazero使用了深层神经网络和一种新颖的算法，将蒙特卡洛树搜索与自学习结合在一起。
>
该系统仅从基本规则开始，并通过与自身玩数百万游戏来学习最佳策略。使Alphazero与众不同的原因是它可以发现创造性和高效的策略，展示AI中的新范式，该范式利用自我学习而不是人工设计的知识。
>
整合速度和策略：Star Craft II
> Google DeepMind团队继续在AI领域的统治地位，将其重点转移到了非常受欢迎的电脑游戏《星际争霸II》上。在2019年，他们开发了一个名为Alphastar²的AI，能够实现大师级比赛，并在竞争性排行榜上排名超过99.8％的人类球员。
通过构建为以前的AIS开发的一些技术，例如通过自我播放和深度神经网络学习的强化学习，该团队能够制造出独特的游戏引擎。首先，他们使用有监督的学习和人类游戏训练了神经网。然后，他们将其用来播种另一种可以在多代理游戏框架中对抗自己的算法。 DeepMind团队创建了一个虚拟联盟，代理商可以探索彼此的策略，以及将获得主导策略的奖励。最终，他们将联盟的策略结合在一起，成为一种超级战略，可以对许多不同的对手和策略有效。用他们自己的话：

>>>最终的字母代理由联盟纳什分布的组成部分组成 - 换句话说，这是发现的策略最有效的混合物 - 在单个桌面GPU上运行。 >
>深探究pluribus和Poker

> 我喜欢玩扑克，当我在Trondheim生活和学习时，我们曾经有一个每周的现金游戏，这可能会变得非常激烈！战略AI黯然失色的最后一个里程碑之一是扑克游戏。具体而言，在最受欢迎的扑克形式之一中，6名玩家无限的德克萨斯州Hold’em。在此游戏中，我们使用带有52张卡片的常规卡片牌，并且该剧遵循以下结构：>
>
preflop：
>所有玩家都获得了2张卡片（孔卡），只有他们自己才知道。
1. 触摸： 3张卡片被绘制并朝上张开，以便所有玩家都可以看到它们。>
2. 转弯：绘制另一张卡片并朝上放置。
3. 河流：>绘制最后的第五张卡片并张开。
4. >玩家可以使用桌子上的卡片，手上的两个卡片来组装5卡扑克手。对于每一轮比赛，玩家轮流下注，如果一个玩家下注，没有其他人愿意打电话。尽管学习相当简单，但人们只需要了解各种扑克手的层次结构，但是，尽管数十年来一直在进行努力，但该游戏被证明很难解决。
  >有多种因素导致难以解决扑克的困难。首先，我们有隐藏信息的问题，因为您不知道其他玩家拥有哪些卡。其次，我们有一个具有许多玩家的多人游戏设置，每个额外的播放器都会以指数方式增加可能的交互和策略。第三，我们有无限制的投注规则，该规则允许一个复杂的投注结构，其中一个玩家可以突然决定下注他的整个堆栈。第四，由于孔卡，社区卡和投注序列的组合，我们具有巨大的游戏树复杂性。此外，由于卡的随机性，虚张声势和对手建模！
  >直到2019年，一些研究人员Noam Brown和Tuomas Sandholm才终于破解了代码。在科学上发表的一篇论文中，他们描述了一个小说的扑克AI - pluribus - 在6名玩家无限制的德克萨斯州Hold'em中击败了世界上最好的球员。扑克手，两个实验清楚地表明了pluribus的主导地位。
  > 在第一个实验中，Pluribus与5个人类对手进行了比赛，平均获胜率为48 Mbb/game，标准偏差为25 Mbb/game。（MBB/游戏代表每场比赛Milli Big Blind，每次玩1000场比赛将赢得多少个大百叶窗。）48 MBB/游戏被认为是非常高的胜利率，尤其是在精英扑克玩家中，这意味着Pluribus比Pluribus强人类对手。
  在第二个实验中，研究人员有5个版本的Pluribus对1人进行比赛。他们设置了实验，以使2个不同的人每人在5台机器上播放5000手。 Pluribus最终以平均32 MBB/游戏击败人类，标准错误为15 MBB/游戏，再次显示出其战略优势。
  
  使用两种不同的算法来评估移动。他们将首先使用一种所谓的“蓝图策略”，该策略是通过使用一种称为Monte Carlo反事实遗憾最小化的方法对其进行对抗而创建的。这种蓝图策略将在第一轮投注中使用，但是在随后的投注赛中，Pluribus进行了实时搜索以找到更好的更精细的策略。为了使其实时搜索算法在计算上更加有效，他们将使用限制搜索并评估对手可能选择播放的4种不同可能的策略。首先，他们将评估每种策略的两个策略。此外，他们只会评估对手的四种不同策略，包括原始的蓝图策略，一种偏向折叠的蓝图策略，一种偏见的蓝图策略以及偏向提升的最终蓝图策略。
  >他们还使用了各种抽象技术来减少可能的游戏状态数量。例如，由于9高直线与8高直的直线相似，因此可以以类似的方式查看。
6. >从pluribus中有很多有趣的观察结果，但最有趣的是，它并没有改变与不同的对手的作用，而是制定了一种强大的策略，该策略对各种玩家有效。由于许多扑克玩家认为他们必须将自己的比赛调整为各种情况和人，因此Pluribus向我们展示了这是不需要的，甚至可能不是最佳的，因为它是如何击败其与之抗衡的所有人类的。
7. 评估战略AI 的趋势
  >总结游戏中战略性AI的历史，我们看到了明显的趋势。这些游戏正在缓慢但肯定变得越来越接近人类每天发现的现实战略状况。
  >首先，我们正在从两个玩家转移到多人游戏设置。从两人游戏中的最初成功到6-玩家扑克等多人游戏。其次，我们看到使用隐藏信息的游戏掌握的掌握有所增加。第三，我们还看到掌握更多随机元素的掌握。
  >
  隐藏的信息，多人游戏设置和随机事件是人类战略互动的常态，因此掌握这些复杂性是实现可以在现实世界中导航的更通用的超人战略AI的关键。
  大型语言模型和战略性AI
  
  >我最近进行了一个实验，让LLMS互相发挥董事会风险。我对实验的目的是评估LLM在战略环境中的表现，更少的开箱即用。但是，给代理商提供了很多详细的提示，以提供正确的环境，但也许毫不奇怪，LLM的性能相当平庸。
  > >您可以在此处找到有关该实验的文章：
  
  >在风险游戏设置中探索LLM的战略能力
  >总结了实验中的一些关键发现，当前一代的LLMS与强化和认可获胜的动作等基本战略概念斗争。当他们这样做在战略上是有益的，他们也无法消除其他玩家。
  >上面的实验表明，即使我们看到LLM的快速改善，它们仍然缺乏战略推理的复杂性。鉴于他们的一般培训数据以及如何构建它们，这并不令人惊讶。> 那么，他们如何适应围绕战略AI的讨论？要了解这一点，我们需要了解LLM的真正出色。 LLM的最有希望的功能也许是它们消化和产生大量文本的能力。现在，也有了多模型，视频和音频。换句话说，LLM非常适合与人类和其他背景下的现实世界互动。最近，META的AI团队能够将语言模型的一般语言能力与战略引擎的战略见解相结合。
  
  案例研究：西塞罗和外交
  外交游戏是2至7玩家策略游戏，Meta将其描述为风险，扑克和电视节目幸存者之间的混合。球员们从欧洲地图上开始。 1900年，目的是获得对大多数供应中心的控制权。具体而言，玩家旨在控制34个供应中心中的18个以取得胜利。通过这样做，一名球员有效地主导着地图，代表了在第一次世界大战之前的那个时期，代表了其国家在欧洲的上升。
  与我们迄今为止讨论的其他许多游戏不同的是，它依赖玩家之间的谈判。这是一种比扑克更合作的游戏形式。每个玩家在每回合之前都使用自然语言与其他玩家进行交流，他们计划彼此盟友。准备工作完成后，所有玩家都会同时揭示他们的计划，并执行回合。这种类型的游戏显然类似于实际的外交和现实生活中的谈判比大多数其他棋盘游戏更接近，但是由于具有自然语言组成部分，AI很难掌握。
  >在2022年，META的AI团队开发Cicero时发生了变化。使用语言建模方面的最新进步，再加上战略模块，Cicero是一种游戏引擎，能够取得超过“人类玩家的平均得分的两倍，并排名前10％的参与者，他们玩了超过一场比赛。”⁶正如Meta所描述的那样，他们的模型能够产生策略的对话并产生对话Aware-trategy。 Cicero与其他战略AI模型之间的差异
  
  >外交与我们最近有战略性AI进步的其他一些游戏之间存在一些关键差异。最值得注意的是游戏的合作性质 - 与其他游戏的对抗性相比，以及它使用的开放式自然语言格式。我认为这些差异使游戏更像是真正的人类互动，但是它也对研究如何训练算法的算法构成了限制。与Pluribus和Alphazero不同，Cicero不是主要通过自我播放和增强学习来训练的。取而代之的是，元小组使用了一个数据集，其中包含超过125,000场游戏和40,000,000条消息来帮助训练该算法。他们认为，鉴于游戏的谈判，说服和建立信任的方面，如果让AI通过自我玩法与自己进行谈判，他们可能会看到奇怪的行为，并且可能不会捕捉人类互动的本质。引用他们的研究文章：
  
  “……我们发现，在2P0S版本中实现超人性能的自我游戏算法在与潜在人类盟友的规范和期望不一致的游戏中的游戏中表现不佳。 “
  但是，使用强化学习来训练一部分策略引擎，特别是用于训练西塞罗的价值功能 - 它需要预测其行动的实用性。研究人员使用了修改版的行为克隆PIKL，该版本旨在最大化行动中的预期效用，同时最大程度地减少了与人类行为的差异。同时保持与人类行为的差距。
  上述外交特征突出了一些与创建可以在现实世界中人类环境中运作的战略AI相关的重要问题，并且在我们评估战略AI将如何发展时，需要考虑到。
  战略AI
  的未来
  但是，预测未来总是很棘手的，但是一种方法是使用当前的趋势并推断为未来的情况。下面，我们研究了一些与我们以前的讨论密切相关的主题，并评估它们如何影响战略AI的未来。
  一般的符号策略引擎与专用模块如果我们迄今为止检查战略性AI发动机的轨迹，那么让我们引起我们的一件事是每个游戏引擎的专业化。即使体系结构可能相似 - 就像Alphazero学习如何玩多个不同的游戏一样，AI仍然可以在每个特定游戏中玩数百万游戏。对于国际象棋而言，Alphazero打了4400万场比赛，对于1.3亿场比赛！⁷自然的问题是，我们是否应该尝试构建更多的通用策略引擎或继续专注于特定任务的专业模块？
  >一般的战略引擎将旨在理解和应用不同情况下的广泛战略原则。也许通过创建捕获人类战略互动的许多方面的游戏，AI可以通过对抗自己的游戏来学习并制定适用于现实情况的策略。这种方法可以帮助AI概括其学习，从而在各种情况下有用。另一方面，专门的模块是为特定场景或任务设计的AI系统。我们可以设想我们可以通过组合多个专业代理来创建一般的战略AI。 AI代理可以在每个特定领域进行训练，从而提供最需要的深厚专业知识。尽管此方法可能会限制AI概括的能力，但它可以确保在特定域中的高性能，这可以更快地导致实际应用。
  
  鉴于我们在合作环境中使用AI进行自我播放的问题 - 正如我们在外交所观察到的那样 - 当前的趋势似乎对不同的战略情况有利于专门的模块，在不久的将来，我们似乎很可能会专业化不同上下文的战略模块。但是，人们还可以设想一个混合系统，我们使用通用策略引擎来提供有关更广泛主题的见解，而专门的模块则应对复杂的特定挑战。这种平衡可以使AI系统在适应特定情况的细节的同时应用一般的战略见解。
  
  llms桥接战略模块和现实世界应用之间的差距大型语言模型已经改变了AI与人类语言互动的方式，提供了一种将战略AI模块与现实世界用例相关联的强大方法。 LLM擅长理解和生成类似人类的文本，使其成为中介，可以将现实世界的情况转化为策略引擎可以处理的结构化数据。正如Meta的Cicero所看到的那样，LLM与战略推理相结合，使AI可以理解人类的交流，谈判和计划行动。
  鉴于当前的多模型模型的趋势，LLM越来越能够不仅将文本，而且任何现实世界的上下文转换为机器可读语法。这使得模型更具用作中介。 >如果我们建立在Cicero开发的想法的基础上，我们还可以设想针对特定任务（例如外交沟通）进行微调模型，也许是通过对历史外交通信的模型进行微调，然后训练单独的策略引擎以进行培训采用最佳动作。
  
  人类协作：Centaur Model
  >
  战略AI的未来不仅仅是机器接管决策；在过渡期间，这也是关于人类和人工智学的有效共同努力的。这种伙伴关系通常称为“半人马模型”，将人类直觉与AI的计算能力相结合。在这种模型中，人类带来了创造力，道德判断和灵活性，而AI系统则提供了强大的数据处理和战略原则的一致应用。该模型的现实世界示例包括人类团队表现优于人类或单独工作的机器的领域。例如，在国际象棋中，加里·卡斯帕罗夫（Garry Kasparov）提倡与AI合作的想法，将人类战略见解与AI的精确计算相结合。直到程序开始变得非常好，直到程序开始变得非常好，Centaur模型似乎在国际象棋中效果很好。到那时，人类的贡献不值得，在最坏的情况下有害。但是，在其他更开放式和现实世界的领域，半人马模型可能是一个不错的选择。只需考虑人类与现代LLM的合作有可能大大提高生产率的潜力。
  
  这种协作方法通过将人类判断力与AI分析相结合，改善了决策，可能会导致更明智和平衡的结果。它可以快速适应新的和意外的情况，因为人类可以在AI支持的情况下实时调整策略。
  
  现实世界的应用程序
  
  >
  游戏一直是开发战略性AI的一个很好的测试基础，但真正的影响来自将这些进步应用于现实世界中的挑战。下面我们重点介绍了一些示例。
  在过去几年中，一个巨大发展的领域是自动驾驶汽车，以及他们如何使用战略AI安全地驾驶道路。他们必须预测并回应其他驾驶员，行人和骑自行车的人的行为。例如，一辆自动驾驶汽车需要预见行人是否即将过马路，或者是否会意外地改变车道。 >就在今年，Waymo（一家开发自动驾驶汽车和乘车服务的公司）开始在美国三个城市使用完全自主出租车：凤凰城，亚利桑那州，加利福尼亚州的洛杉矶和旧金山。在接下来的几年中在金融市场中，AI驱动的交易系统分析了大量数据以做出投资决策。这些系统考虑了其他市场参与者的可能行动，例如交易者和机构预测市场变动。他们使用战略推理来执行最大收益的交易，同时最大程度地减少风险，通常在高度波动的环境中。 AI系统还通过考虑供应商，竞争对手和客户的行动来优化供应链。他们可以根据预期的需求和竞争对手的行为来战略性地调整生产计划，库存水平和物流。例如，如果竞争对手有望推出新产品，AI可以建议提高库存水平以满足潜在需求的增加。战略AI也用于有效地管理能量分布。智能电网采用AI来预测消费模式并相应调整供应。他们考虑消费者如何根据定价信号或环境因素来改变其使用情况。 AI从战略上分配资源来平衡负载，防止中断和整合可再生能源。
  上面的示例清楚地表明了如何将战略性AI集成到各个行业和领域。通过考虑他人的行动，这些AI系统做出明智的决策，以优化结果，提高效率并经常提供竞争优势。随着战略性AI的继续改善，这些系统也将会改善，我们也可能会看到它们在许多其他领域的出现。
  结论
  
  自从Deep Blue击败Garry Kasparov以来，战略AI已经走了很长一段路。从掌握复杂的棋盘游戏到进行类似人类的谈判，AI系统越来越表现出战略性的推理能力。在本文中，我们研究了战略AI的基础概念，强调了游戏理论的重要性以及如何将领域的某些概念应用于战略AI。我们还研究了专门的AI系统如何通过专注于狭窄的域和广泛的自我播放来在特定游戏中取得超人的性能。这就提出了一个问题，即战略AI的未来是否在于开发能够更广泛应用或继续使用针对特定任务量身定制的专业模块的一般符号战略引擎。正如我们在西塞罗（Cicero）所看到的那样，语言模型也可能在战略AI的空间中拥有未来。来自OpenAI，Anthropic和Meta等提供商的新模型比以往任何时候都更容易将这些工具集成到自主代理中，这些工具可以使用它们将真实世界转化为AI Systems可以处理的结构化数据。但是，可以驾驶现实世界复杂性的通用战略AI的旅程才刚刚开始。在开发可以跨越领域，适应不可预见的情况并将道德考虑的系统推广到其决策过程中的系统中，挑战仍然存在。
  感谢您的阅读！
  每当我发表新文章时，都想通知>
  >吗？ ➡️在这里订阅我的新闻通讯⬅️。它是免费的，您可以随时取消订阅！
  
  >
  >
  如果您喜欢阅读这篇文章，并且想从我这里访问更多内容/或通过https://www.ekneconsulting.com/访问我的网页，以探索我提供的一些服务。不要犹豫，通过电子邮件[电子邮件受保护]
  
  >通过电子邮件联系
  
  参考
  
  Lex Fridman。（2019年10月27日）。 Garry Kasparov：国际象棋，深蓝色，AI和普京| Lex Fridman播客＃46 [视频文件]。 YouTube。 https://youtu.be/8rva0thwuww?si = 1ercnwlan4myok9w
  Vinyals，O。，Babuschkin，I.，Czarnecki，W.M。使用多机构增强学习，Starcraft II中的
  等人自然575，350–354（2019）。 https://doi.org/10.1038/s41586-019-1724-z > https://deepmind.google/discover/blog/alphastar-mastering-the-real time-strategy-game-starcraft-ii/
  > Brown等。（2019年8月30日）。多人扑克的超人AI。
  Science 365，885–890，（2019）。
  Lex Fridman。（2022年12月6日）。诺阿姆·布朗（Noam Brown）：扑克中的人工智能和战略谈判游戏中的人类| Lex Fridman播客＃344 [视频文件]。 YouTube。 https://youtu.be/2ohh4acljqs?si = ave_esb42gngiprg > meta基本AI研究外交团队（公平）†
  等，
  
  人类级别的比赛在>外交游戏中，通过将语言模型与战略推理相结合。
  科学。 > 378，1067 1074（2022）.doi：10.1126/science.ade.ade9097， https://noambrown.github.io/papers/22-science-diplomacy-tr.pdf > David Silver等。，一种通用的强化学习算法，掌握了国际象棋，shogi并通过自我播放。 AAR6404 https://storage.googleapis.com/deepmind-media/deepmind.com/blog/alphazero-shedding-new-light-new-new-new-chess-shog-ang-ang-and-go/alphazero_preprint.pdf>