在游戏开发者大会 CEDEC 2024 上,一场会议“将棋 AI 的过去、现在和未来” 由本八渡朝日法律事务所 的 Tatsuya Sugimura 和 Yaneu Design 的 Urao Yaneu
举办。让我们来报道一下关于将棋人工智能的过去和未来的会议,人工智能已经迅速发展,现在甚至超越了职业将棋玩家。
杉村先生是一名律师,是将棋AI“Suisho”
的开发者,藤井苍井七冠
也使用该软件,并赢得了众多将棋AI世界锦标赛的冠军。作为一名开发者,他可能更被称为“Tayayan”。
Urao Yane 先生是“Yaneurao”
的开发者,它已成为开源将棋 AI 的事实上的标准。许多最近的将棋 AI,包括 Suisho,都以某种形式使用 Yaneuraou。
|
| 杉村达也先生(左)和浦尾柳根先生(右)
|
| 会议以Yaneuraou官方频道的角色Masaki Wakaru为主角的视频进行了
将棋 AI 的诞生和演变
首先介绍了将棋AI从诞生到战胜职业将棋选手的历程。
据说,世界上第一台将棋人工智能是由当时的研究生、现任计算机将棋协会副会长、早稻田大学名誉教授的泷泽武信 (Takenobu Takizawa) 于 1974 年开发的。
早期的将棋 AI 是简单的
“评估函数”
和搜索算法的组合,主要是“极小极大法”
。
评估函数是将棋局面数字化的“评估值”(棋盘上的信息+移动+先前的步骤)。在最简单的情况下,玩家一方的每个棋子都是+1,玩家一方的每个棋子都是-1,从那里开始,大棋子(车和角)和棋盘上表现良好的棋子价值+1进行修改以增加值。
Minimax 方法参考评估函数输出的评估值,并检查每条路线的评估,但由于暴力方法效率较低,因此它缩小了评估范围。作为 Minimax 方法的改进而诞生。此外,还引入了各种可以与 αβ 搜索结合使用的“修剪”思想。
修剪的一个例子是“杀手走法”,当发现会阻碍对手王的走法时,会优先评估最接近它的走法。
评估函数和搜索算法相当于 Shogi AI 的“汽车的两个轮子” | 。
在早期的将棋AI中,评价函数的参数是由人类调整的。除了棋盘上棋子的种类和功能之外,我们还设置了王的防守坚固程度(附近有金银,准备好撤退路线)等因素,并与标准软件对战,因为过程需要反复精细。 -调优,有人说“创建评估函数是工匠的技艺。”
然而,随着它的不断发展,评估函数变得更加复杂并且超出了人类的控制范围。这时,由Kunihito Hoki开发的《Bonanza》出现了。 Bonanza 使用“Bonanza Method”,“搜索参数,使得用于判断每个棋盘的评估函数与强手的实际走棋相同”,并自动从人类游戏记录中计算参数这使得做出调整成为可能。 |
Bonanza 方法是基于“最优控制理论”,但后来发现也可以使用机器学习中经常使用的“随机梯度下降”来调整参数
此后,将棋 AI 不断发展,在 2013 年的一场正式比赛中,“ponanza” 击败了职业将棋选手 4 段的佐藤新一 。该 ponanza 还使用了 αβ 搜索和使用机器学习调整评估函数参数。
另外,将棋的平均合法步数(不违反规则的情况下可以走的步数)为80步,所以如果你全中了,如果你领先一步,你将能够评估80种方式,而80种方式将被评估为80种。 x 80 (80 x 80),如果您领先两步,则有 6400 种方式。然而,Bonanza的平均分支数(每步评估次数)从早期的3个减少到后期的5个左右。最新AI的平均分支数为2,据说最多可以向前评估30步。
当前将棋 AI
这里重点介绍了从 2013 年将棋人工智能超越人类到现在产生重大影响的 10 件事件。
●强化学习
Bonanza是从职业选手的比赛记录中学习的,但只有三万左右,远远少于Bonanza的参数数量。
此外,由于将棋 AI 变得比职业将棋玩家更强,使用职业将棋玩家的游戏记录的意义减弱了,因此开发人员开始让将棋 AI 学习玩游戏时生成的游戏记录。
●将棋AI锦标赛
除了自1990年以来每年举办的世界计算机将棋锦标赛之外,现在还举办将棋电王锦标赛(2013-2017年)、世界将棋人工智能电龙锦标赛(从2021年起)等。丰厚的奖金对开发者来说是一个巨大的动力。
●Yaneuraou 开源
Yaneuraou 于 2015 年在 GitHub 上发布并开源。虽然许多将棋 AI 都采用集成评估功能和搜索部分的结构,但 Yaneuraoh 具有高度模块化的特点,因此可以替换评估功能或搜索部分,并已被许多开发人员使用。
●鳕鱼干的进化
“Stockfish”是一款开源国际象棋AI,在开发者社区拥有大量参与者,据说一个小小的改进就被测试了数万次。虽然游戏不同,但探索部分有很多可以应用到将棋的应用,而Stockfish的进化也带动了将棋AI的进化。
●NNUE评估函数
``NNUE''是一种仅使用CPU即可进行高速差分计算的评估函数,于2018年推出。从此成为主流,取代了Bonanza中使用的三件式关系评价函数。
|
●阿尔法零号
“AlphaZero” 是 Google DeepMind 于 2017 年开发的围棋、将棋和国际象棋人工智能。它充分利用了深度学习,另一个特点是采用“蒙特卡罗树搜索”代替了之前主流的αβ方法。
基于AlphaZero论文创建的将棋AI包括“dlshogi”、“AobaZero”和“Fukaura King” ,在当前的将棋AI锦标赛中,AlphaZero类型和传统类型(αβ方法)都在使用。
●nnue-pytorch
``nnue-pytorch'' 使用 GPU 实现 NNUE 的机器学习,大大减少了学习所需的时间。这成为作者Hisjun Noda赢得2024年5月举行的世界计算机将棋锦标赛的动力。
●如何创建强大的将棋软件
《如何创建强大的将棋软件》 是 dlshogi 的开发者 山冈忠雄 撰写的书。它写的是基于深度学习的将棋人工智能的开发,据说仅凭这里写的知识,就可以创建比专业将棋玩家更强的将棋人工智能。
●发布优质教师数据
撰写了有关如何创建强大的将棋软件的山冈先生和在本次会议上发言的杉村太彦先生已经发布了教师数据(学习数据)。在将棋 AI 的强化学习中,创建训练数据的成本高于学习成本。因此,随着这一披露,进入门槛似乎突然降低了。
杉村先生解释了原因:“即使你是唯一拥有它的人,你也可能无法使用它,所以在这种情况下,最好让其他人使用它,并说,”我用了它数据。''''
| ●SNS的兴起
2013 年左右,许多将棋 AI 开发者都是大学研究人员,而且许多人不使用 SNS。自从 King Yaneura 开源版本以来,进入该领域的新人数量有所增加,代际更替也取得了进展,现在 X 和 Discord 上开发者之间有很多互动。
通过收视率了解将棋 AI 增强的历史
“Iro评级”用于表达将棋AI的强度。这是一个最初设计用于表达国际象棋技巧的指数,并且它也有数学支持。
据职业选手也使用的日本将棋联盟官方在线将棋比赛网站 Shogi Club 24 的数据显示,参赛人数上限为 3000 至 3300 人左右,业余初段选手则为 1000 人左右。不过,Bonanza 的评级2005 年是 2360。
2009年,Bonanza对阵渡边龙雄时,渡边龙雄克服了自以为可能会失败的局面,取得了胜利,但当时Bonanza的评分为2815。可见,实力接近人类极限的渡边龙夫,才能够取得这场胜利。
2013年,“Gikou”为3713,比人类极限3300高出400多点。显然,相差400意味着你获胜的概率超过90%。而2024年世界电脑将棋锦标赛冠军“你想成为CSA会员吗?”的得分为4914,远远超过了人类。
|
重要的是,这是基于典型笔记本电脑的评级,需要大约 5 秒钟的时间来思考。杉村先生表示,如果使用超级计算机之类的东西,这个数字达到 7000 左右也就不足为奇了。
|
将棋 AI 已经发展到了这一点,并被广泛的职业和业余玩家所使用。它的常用方式包括让人工智能分析您所下的将棋并验证哪一步棋不好,或者让它分析游戏中的预期情况并考虑该情况的最佳棋步。
将棋AI的未来
对于未来,他们讨论了如何开发世界上最强的将棋人工智能。
目前的将棋AI大致可以分为使用αβ搜索的传统“NNUE型”和使用成熟深度学习的“DL型”。
而且既然两位代表选手King Yaneura和dlshogi的源代码都已公开,那么通过一点改进,很有可能会创造出世界上最强的将棋AI。
那么,从这里可以改进什么?就是以下五个。
●改进的评价功能
由于目前的NNUE类型使用CPU进行计算,因此评估函数的准确性和可搜索的场景数量之间存在权衡,因此调整起来极其困难。然而,据说 GPU 计算与 αβ 搜索不兼容。
另一方面,众所周知,当引入 ChatGPT 等语言模型中使用的 Transformer 的注意力机制时,许多 DL 类型中使用的评估函数 ResNet 会变得更强,并且可以利用机器学习领域的知识。他们就是这么说的。
| ●教师数据调整
NNUE型将棋AI在锦标赛规格的机器上每秒搜索超过1亿个位置,但位置评估的准确性不是很高,因此据说最后阶段比早期阶段相对更强。因此,在学习 NNUE 型将棋 AI 时,似乎有一种倾向,即更好地专注于早期阶段。
另一方面,也有人认为,由于早期阶段,直到第32步左右,通常都是以固定方式进行的(根据过去研究的最佳移动方式),因此省略学习是没有问题的。那一点。
此外,由于在当前的锦标赛中摇摆车不被认为是有效的战术,因此似乎有一种方法可以忽略它们。
| ●自动生成固定标记
由于手动编辑固定标记存在限制,顶级团队正在尝试自动生成它们。然而,为了创造出高精度的棋步,将棋 AI 需要在一场比赛中运行很长时间,因此效率也不是很高。
看来熟悉图论和博弈树搜索的人也许能够生成大量的踪迹。
| ●搜索部分的改进
NNUE类型是基于国际象棋AI Stockfish的搜索部分,但同样,有可能通过将其他AI中成功的搜索思想引入将棋AI来加强它。是。
●安全计算资源
简单来说,计算资源就是计算机。近年来,个人获取创建教师数据所需的计算机变得越来越困难,对大公司赞助商的需求也随之增加。看来如果你能创造大量的训练数据,你就可以成为世界最强。
自从 Yaneurao 开源以来,Shogi AI 不断发展,开发人员不断提出想法。即使现在看来,只要对这次引入的五个改进之一进行更改,而不是全部更改,就有机会成为世界最强。
会议内容如上,最后还有观众提问。问题是,“我认为将棋中有一种必胜的方法,其中没有运气的成分,但我们能达到这一点吗?”
杉村先生说将棋是一种“两人零和有限确定完美信息游戏”,虽然有必胜或有保证的平局,但选择太多,很难达到最佳状态。答案是很难,而且即使确定了获胜方法,也没有办法将其保存为数据。
|
|
|
以上是AI将棋是如何超越职业将棋选手的?从这里你要去哪里? [CEDEC 2024]的详细内容。更多信息请关注PHP中文网其他相关文章!