>这是纽约市美丽的春天。天空很晴朗,温度朝着20摄氏度攀升。洋基队准备在洋基体育场扮演堪萨斯城皇家队,游骑兵在麦迪逊广场花园对阵魔鬼。
>似乎没有什么与众不同的,但是聚集在曼哈顿中城公平中心的人们即将体验真正独特的东西。他们将目睹这一历史性活动,当时计算机首次在标准比赛条件下击败国际象棋的世界冠军。 代表人类是加里·卡斯帕罗夫(Gary Kasparov),当时被广泛认为是世界顶级国际象棋球员。代表机器,深蓝色 - 由IBM开发的国际象棋计算机。进入比赛的最后和第六场比赛,两名球员都得到2.5分。今天要决定获胜者。>
>受生成AI的最新进步以及我自己的大型语言模型及其战略能力的实验的启发,我越来越多地考虑战略性AI。过去,我们如何尝试处理这个话题?在我们拥有更具通才的战略AI代理之前,还有什么挑战和要解决的问题? 作为数据科学家,我们越来越多地为客户和雇主实施AI解决方案。对于整个社会而言,与AI的不断增长的互动使了解AI,尤其是战略性AI的发展至关重要。一旦我们拥有具有在战略背景下操纵能力的自主代理人,这将对每个人都具有深远的影响。
>但是,当我们说战略性ai>在本文中,我们将定义战略性AI,探讨自1997年IBM Deep Blue Beat Kasparov以来的几年来探索它的含义以及它的发展。我们将尝试了解某些模型的一般体系结构,并且另外,还检查了大型语言模型(LLM)的适合图片。通过了解这些趋势和发展,我们可以更好地为将自主AI代理融入社会的世界做准备。
定义战略性AI>当我们在商业环境中考虑战略时,我们通常倾向于将其与长期思维,资源分配和优化等主题联系在一起,对组织中的相互依存的整体理解,与目的和使命的决策保持一致公司等。尽管这些主题很有用,但在与AI和自主代理打交道时,我通常更喜欢对策略进行更多游戏理论定义。在这种情况下,我们将战略性定义为:
选择一种行动方案,不仅要考虑自己的潜在行动,而且还要考虑其他人如何应对这些行动以及您的决策如何影响环境的整体动态,从而最大程度地提高了预期的回报。 >>该定义的关键部分是战略选择是在真空中不出现的选择,而是在其他参与者的背景下,无论是人类,组织还是其他AIS。这些其他实体可以拥有自己的类似或相互矛盾的目标,也可能试图以战略性地采取行动以促进自己的利益。>>此外,战略选择始终寻求最大化预期的收益
策略的游戏理论观点捕捉了战略决策的本质,因此让我们清楚地定义了战略AI的含义。从定义来看,我们可以看到,如果AI系统或代理要以战略性采取行动,则需要具有一些核心功能。具体来说,它需要能够:,无论这些收益是根据货币,公用事业还是其他价值衡量标准。如果我们想结合与战略相关的更传统的“商业”主题,我们可以想象我们希望从现在起十年后最大化公司的价值。在这种情况下,要制定一个好的策略,我们需要采取“长期”观点,并且还可以考虑公司的“目的和使命”,以确保与该战略保持一致。但是,追求这些努力仅仅是它实际上采取战略性行动的结果。
在我们进一步讨论战略AI之前,回顾游戏理论的某些概念和想法可能很有用。围绕战略AI所做的许多工作在游戏理论概念中都有基础,并且使用游戏理论的定理可以表明某些属性的存在,这些属性使某些游戏和情况比其他属性更易于处理。它还有助于强调游戏理论的某些缺点,并突出显示我们可能会更好地朝其他方向寻求灵感的地方。
什么是游戏?策略
:每个玩家可以采用的可能的动作或计划。>以冷战为无限游戏的示例,我们可以在这种情况下识别几个子游戏。一些示例包括:
古巴导弹危机(1962):>
参与者:美国和苏联。
:西方盟友和苏联。> >
>策略零和游戏是游戏的一个子集,其中一个玩家的收益是另一个玩家的损失。总的收益保持不变,并且球员们正在直接竞争。
的关键要点
回顾游戏理论概念,似乎子游戏的想法对于战略AI特别有用。在较大的上下文中找到可能更小,更易于分析游戏的能力使应用已知的解决方案和求解器变得更加容易。> 例如,假设您正在努力发展自己的职业生涯,这可能被归类为无限的游戏且难以“解决”,但突然间,您有机会谈判新合同。这个谈判过程为您的职业生涯提供了一个子游戏的机会,对于使用游戏理论概念的战略AI来说,将更容易实现。
的确,人类已经在我们生活中创造了数千年的子游戏。大约1500年前,我们在印度创造了现在被称为国际象棋的起源。事实证明,国际象棋是AI击败的挑战,但也使我们开始开发更成熟的工具和技术,这些工具和技术可以用于更复杂且困难的战略状况。>游戏为开发战略性AI提供了惊人的证据基础。游戏的封闭性质使训练模型和开发解决方案技术比在开放式系统中更容易。游戏明确定义;球员是已知的,收益也是如此。最大,最早的里程碑之一是Deep Blue,这是击败国际象棋世界冠军的机器。
> 复杂游戏中的进步
:alphago > 人们可能会争辩说,鉴于其具有出色的评估董事会状态和选择动作的能力,因此alphago具有比深蓝色更多的智能。从2016年对阵Lee Sedol的比赛中移动37是一个典型的例子。对于那些熟悉GO的人来说,这是第五线的肩膀,最初令人困惑的评论员,包括李·塞多尔本人。但是,正如后来变得很清楚的那样,此举是一场出色的戏剧,并展示了Alphago将如何探索人类玩家可能会忽略和无视的策略。 >
>
通过构建为以前的AIS开发的一些技术,例如通过自我播放和深度神经网络学习的强化学习,该团队能够制造出独特的游戏引擎。首先,他们使用有监督的学习和人类游戏训练了神经网。然后,他们将其用来播种另一种可以在多代理游戏框架中对抗自己的算法。 DeepMind团队创建了一个虚拟联盟,代理商可以探索彼此的策略,以及将获得主导策略的奖励。最终,他们将联盟的策略结合在一起,成为一种超级战略,可以对许多不同的对手和策略有效。用他们自己的话: preflop: >有多种因素导致难以解决扑克的困难。首先,我们有隐藏信息的问题,因为您不知道其他玩家拥有哪些卡。其次,我们有一个具有许多玩家的多人游戏设置,每个额外的播放器都会以指数方式增加可能的交互和策略。第三,我们有无限制的投注规则,该规则允许一个复杂的投注结构,其中一个玩家可以突然决定下注他的整个堆栈。第四,由于孔卡,社区卡和投注序列的组合,我们具有巨大的游戏树复杂性。此外,由于卡的随机性,虚张声势和对手建模!
>
在第一个实验中,Pluribus与5个人类对手进行了比赛,平均获胜率为48 Mbb/game,标准偏差为25 Mbb/game。 (MBB/游戏代表每场比赛Milli Big Blind,每次玩1000场比赛将赢得多少个大百叶窗。)48 MBB/游戏被认为是非常高的胜利率,尤其是在精英扑克玩家中,这意味着Pluribus比Pluribus强人类对手。 >首先,我们正在从两个玩家转移到多人游戏设置。从两人游戏中的最初成功到6-玩家扑克等多人游戏。其次,我们看到使用隐藏信息的游戏掌握的掌握有所增加。第三,我们还看到掌握更多随机元素的掌握。 隐藏的信息,多人游戏设置和随机事件是人类战略互动的常态,因此掌握这些复杂性是实现可以在现实世界中导航的更通用的超人战略AI的关键。
>上面的实验表明,即使我们看到LLM的快速改善,它们仍然缺乏战略推理的复杂性。鉴于他们的一般培训数据以及如何构建它们,这并不令人惊讶。>
那么,他们如何适应围绕战略AI的讨论?要了解这一点,我们需要了解LLM的真正出色。 LLM的最有希望的功能也许是它们消化和产生大量文本的能力。现在,也有了多模型,视频和音频。换句话说,LLM非常适合与人类和其他背景下的现实世界互动。最近,META的AI团队能够将语言模型的一般语言能力与战略引擎的战略见解相结合。 与我们迄今为止讨论的其他许多游戏不同的是,它依赖玩家之间的谈判。这是一种比扑克更合作的游戏形式。每个玩家在每回合之前都使用自然语言与其他玩家进行交流,他们计划彼此盟友。准备工作完成后,所有玩家都会同时揭示他们的计划,并执行回合。这种类型的游戏显然类似于实际的外交和现实生活中的谈判比大多数其他棋盘游戏更接近,但是由于具有自然语言组成部分,AI很难掌握。
“……我们发现,在2P0S版本中实现超人性能的自我游戏算法在与潜在人类盟友的规范和期望不一致的游戏中的游戏中表现不佳。 “
的未来
>一般的战略引擎将旨在理解和应用不同情况下的广泛战略原则。也许通过创建捕获人类战略互动的许多方面的游戏,AI可以通过对抗自己的游戏来学习并制定适用于现实情况的策略。这种方法可以帮助AI概括其学习,从而在各种情况下有用。另一方面,专门的模块是为特定场景或任务设计的AI系统。我们可以设想我们可以通过组合多个专业代理来创建一般的战略AI。 AI代理可以在每个特定领域进行训练,从而提供最需要的深厚专业知识。尽管此方法可能会限制AI概括的能力,但它可以确保在特定域中的高性能,这可以更快地导致实际应用。
鉴于我们在合作环境中使用AI进行自我播放的问题 - 正如我们在外交所观察到的那样 - 当前的趋势似乎对不同的战略情况有利于专门的模块,在不久的将来,我们似乎很可能会专业化不同上下文的战略模块。但是,人们还可以设想一个混合系统,我们使用通用策略引擎来提供有关更广泛主题的见解,而专门的模块则应对复杂的特定挑战。这种平衡可以使AI系统在适应特定情况的细节的同时应用一般的战略见解。 战略AI的未来不仅仅是机器接管决策;在过渡期间,这也是关于人类和人工智学的有效共同努力的。这种伙伴关系通常称为“半人马模型”,将人类直觉与AI的计算能力相结合。在这种模型中,人类带来了创造力,道德判断和灵活性,而AI系统则提供了强大的数据处理和战略原则的一致应用。该模型的现实世界示例包括人类团队表现优于人类或单独工作的机器的领域。例如,在国际象棋中,加里·卡斯帕罗夫(Garry Kasparov)提倡与AI合作的想法,将人类战略见解与AI的精确计算相结合。直到程序开始变得非常好,直到程序开始变得非常好,Centaur模型似乎在国际象棋中效果很好。到那时,人类的贡献不值得,在最坏的情况下有害。
但是,在其他更开放式和现实世界的领域,半人马模型可能是一个不错的选择。只需考虑人类与现代LLM的合作有可能大大提高生产率的潜力。
这种协作方法通过将人类判断力与AI分析相结合,改善了决策,可能会导致更明智和平衡的结果。它可以快速适应新的和意外的情况,因为人类可以在AI支持的情况下实时调整策略。
现实世界的应用程序 >
上面的示例清楚地表明了如何将战略性AI集成到各个行业和领域。通过考虑他人的行动,这些AI系统做出明智的决策,以优化结果,提高效率并经常提供竞争优势。随着战略性AI的继续改善,这些系统也将会改善,我们也可能会看到它们在许多其他领域的出现。
>吗? ➡️在这里订阅我的新闻通讯⬅️。它是免费的,您可以随时取消订阅! >
如果您喜欢阅读这篇文章,并且想从我这里访问更多内容/或通过https://www.ekneconsulting.com/访问我的网页,以探索我提供的一些服务。不要犹豫,通过电子邮件[电子邮件受保护] >通过电子邮件联系>在国际象棋深蓝色胜利19年后,Google DeepMind的一支团队产生了另一个模型,这将有助于AI历史上的特殊时刻。在2016年,阿尔法戈(Alphago)成为第一个击败世界冠军GO球员李·塞多尔(Lee Sedol)的AI模型。
> GO是一款非常古老的棋盘游戏,起源于亚洲,以其深厚的复杂性和大量可能的位置而闻名,远远超过了国际象棋。 Alphago将深层神经网络与蒙特卡洛树搜索相结合,使其可以有效地评估位置和计划移动。推断时给出的alphago的时间越多,它的性能就越好。>
在人类专家游戏数据集上训练的AI
通过自我玩法进一步改进。使Alphago与众不同的是它可以处理GO的复杂性的能力,利用先进的机器学习技术来实现以前认为对AI掌握能力的域中的超人性能。组合国际象棋和GO:alphazero
>
一年后,Google DeepMind再次成为头条新闻。这次,他们从Alphago中接受了许多学习,并创建了Alphazero,这更像是掌握国际象棋以及GO和Shogi的通用AI系统。研究人员能够仅通过自我竞争和增强学习就可以在没有人类知识或数据的情况下建立AI。与依靠手工评估功能和广泛开放库的传统国际象棋引擎不同,Alphazero使用了深层神经网络和一种新颖的算法,将蒙特卡洛树搜索与自学习结合在一起。>
Google DeepMind团队继续在AI领域的统治地位,将其重点转移到了非常受欢迎的电脑游戏《星际争霸II》上。在2019年,他们开发了一个名为Alphastar²的AI,能够实现大师级比赛,并在竞争性排行榜上排名超过99.8%的人类球员。
>>>最终的字母代理由联盟纳什分布的组成部分组成 - 换句话说,这是发现的策略最有效的混合物 - 在单个桌面GPU上运行。 >
>深探究pluribus和Poker
>
我喜欢玩扑克,当我在Trondheim生活和学习时,我们曾经有一个每周的现金游戏,这可能会变得非常激烈!战略AI黯然失色的最后一个里程碑之一是扑克游戏。具体而言,在最受欢迎的扑克形式之一中,6名玩家无限的德克萨斯州Hold’em。在此游戏中,我们使用带有52张卡片的常规卡片牌,并且该剧遵循以下结构:
>>
评估战略AI
>总结游戏中战略性AI的历史,我们看到了明显的趋势。这些游戏正在缓慢但肯定变得越来越接近人类每天发现的现实战略状况。
>我最近进行了一个实验,让LLMS互相发挥董事会风险。我对实验的目的是评估LLM在战略环境中的表现,更少的开箱即用。但是,给代理商提供了很多详细的提示,以提供正确的环境,但也许毫不奇怪,LLM的性能相当平庸。
>
>您可以在此处找到有关该实验的文章:
>总结了实验中的一些关键发现,当前一代的LLMS与强化和认可获胜的动作等基本战略概念斗争。当他们这样做在战略上是有益的,他们也无法消除其他玩家。
案例研究:西塞罗和外交
外交游戏是2至7玩家策略游戏,Meta将其描述为风险,扑克和电视节目幸存者之间的混合。球员们从欧洲地图上开始。 1900年,目的是获得对大多数供应中心的控制权。具体而言,玩家旨在控制34个供应中心中的18个以取得胜利。通过这样做,一名球员有效地主导着地图,代表了在第一次世界大战之前的那个时期,代表了其国家在欧洲的上升。
但是,使用强化学习来训练一部分策略引擎,特别是用于训练西塞罗的价值功能 - 它需要预测其行动的实用性。研究人员使用了修改版的行为克隆PIKL,该版本旨在最大化行动中的预期效用,同时最大程度地减少了与人类行为的差异。同时保持与人类行为的差距。如果我们迄今为止检查战略性AI发动机的轨迹,那么让我们引起我们的一件事是每个游戏引擎的专业化。即使体系结构可能相似 - 就像Alphazero学习如何玩多个不同的游戏一样,AI仍然可以在每个特定游戏中玩数百万游戏。对于国际象棋而言,Alphazero打了4400万场比赛,对于1.3亿场比赛!⁷自然的问题是,我们是否应该尝试构建更多的通用策略引擎或继续专注于特定任务的专业模块?
鉴于当前的多模型模型的趋势,LLM越来越能够不仅将文本,而且任何现实世界的上下文转换为机器可读语法。这使得模型更具用作中介。
>如果我们建立在Cicero开发的想法的基础上,我们还可以设想针对特定任务(例如外交沟通)进行微调模型,也许是通过对历史外交通信的模型进行微调,然后训练单独的策略引擎以进行培训采用最佳动作。
在过去几年中,一个巨大发展的领域是自动驾驶汽车,以及他们如何使用战略AI安全地驾驶道路。他们必须预测并回应其他驾驶员,行人和骑自行车的人的行为。例如,一辆自动驾驶汽车需要预见行人是否即将过马路,或者是否会意外地改变车道。
>就在今年,Waymo(一家开发自动驾驶汽车和乘车服务的公司)开始在美国三个城市使用完全自主出租车:凤凰城,亚利桑那州,加利福尼亚州的洛杉矶和旧金山。在接下来的几年中
在金融市场中,AI驱动的交易系统分析了大量数据以做出投资决策。这些系统考虑了其他市场参与者的可能行动,例如交易者和机构预测市场变动。他们使用战略推理来执行最大收益的交易,同时最大程度地减少风险,通常在高度波动的环境中。
AI系统还通过考虑供应商,竞争对手和客户的行动来优化供应链。他们可以根据预期的需求和竞争对手的行为来战略性地调整生产计划,库存水平和物流。例如,如果竞争对手有望推出新产品,AI可以建议提高库存水平以满足潜在需求的增加。
感谢您的阅读!
每当我发表新文章时,都想通知>
参考
以上是当机器提前思考时:战略AI的兴起的详细内容。更多信息请关注PHP中文网其他相关文章!