Comment Shogi AI a-t-il surpassé les joueurs professionnels de Shogi ? Et où vas-tu à partir d'ici ? [CEDEC 2024]-actualités sur les jeux-php.cn

Lors de la conférence des développeurs de jeux CEDEC 2024, une session « Passé, présent et futur de Shogi AI » a été organisée par Tatsuya Sugimura du cabinet juridique Motoyawata Asahi et Urao Yaneu
de Yaneu Design
. Faisons le point sur une session qui a parlé du passé et de l'avenir de l'IA du shogi, qui s'est développée rapidement et surpasse désormais même les joueurs de shogi professionnels.

将棋AIはどのようにしてプロ棋士を凌駕したのか？　そしてこれからどこへ行くのか？［CEDEC 2024］

M. Sugimura, avocat, est le développeur de l'IA shogi "Suisho" , qui est également utilisée par
Sota Fujii Seven Crowns
, et a remporté de nombreux tournois mondiaux d'IA Shogi. En tant que développeur, il est peut-être mieux connu sous le nom de « Tayayan ». M. Urao Yane est le développeur de
"Yaneurao"
, qui est devenu le standard de facto pour l'IA shogi open source. De nombreuses IA shogi récentes, dont Suisho, utilisent Yaneuraou sous une forme ou une autre. M. Tatsuya Sugimura (à gauche) et M. Urao Yane (à droite) La séance s'est poursuivie avec une vidéo mettant en vedette Masaki Wakaru, un personnage de la chaîne officielle Yaneuraou

Naissance et évolution de l'IA shogi

Premièrement, le chemin depuis la naissance de l’IA du shogi jusqu’à sa victoire sur les joueurs de shogi professionnels a été présenté. La première IA shogi au monde aurait été développée en 1974 par Takenobu Takizawa, qui était alors étudiant diplômé et actuellement vice-président de la Computer Shogi Association et professeur émérite à l'Université Waseda.

Les premières IA du shogi étaient une combinaison d'une simple « fonction d'évaluation » et d'algorithmes de recherche, principalement « méthode Minimax » .

Une fonction d'évaluation est une « valeur d'évaluation » qui numérise la situation du shogi (informations sur le plateau + coups + étapes précédentes). Dans le cas le plus simple, chaque pièce du côté du joueur vaut +1, et chaque pièce du côté du joueur vaut -1, et à partir de là, les grosses pièces (tours et cornes) et les pièces qui se comportent bien sur le plateau valent +1. . Des modifications sont apportées pour augmenter la valeur.

La méthode Minimax fait référence à la valeur d'évaluation produite par la fonction d'évaluation et examine l'évaluation de chaque itinéraire jusqu'à plusieurs pas en avant. Cependant, comme une méthode de force brute est inefficace, elle restreint les situations d'évaluation. né comme une amélioration de la méthode Minimax. De plus, diverses idées d'« élagage » ont été introduites et pourraient être utilisées conjointement avec la recherche αβ. Un exemple d'élagage est un « coup fatal » qui, lorsqu'un coup susceptible d'obstruer le roi de l'adversaire est trouvé, est priorisé dans l'évaluation des coups les plus proches de celui-ci.

pour Shogi AI.

La fonction d'évaluation et l'algorithme de recherche sont équivalents aux « deux roues d'une voiture »

Au début du shogi AI, les paramètres de la fonction d’évaluation étaient ajustés par les humains. En plus des types de pièces et de leurs fonctions sur le plateau, nous avons également défini des facteurs tels que la solidité de la défense du roi (or et argent à proximité, routes de retraite préparées), et joué contre le logiciel standard puisque le processus nécessitait des amendes répétées. -tuning, certains ont dit que « créer une fonction d'évaluation est une compétence artisanale ».

Cependant, au fur et à mesure de son évolution, les fonctions d’évaluation sont devenues plus complexes et échappent au contrôle des humains. A cette époque, «Bonanza», développé par Kunihito Hoki

, est apparu. Bonanza utilise la « Méthode Bonanza » 将棋AIはどのようにしてプロ棋士を凌駕したのか？　そしてこれからどこへ行くのか？［CEDEC 2024］

, qui « recherche des paramètres tels que la fonction d'évaluation utilisée pour juger chaque plateau soit la même que le mouvement réel effectué par un joueur fort » et calcule automatiquement les paramètres à partir des enregistrements de jeu humains. Cela a permis de faire des ajustements.

La méthode
Bonanza est basée sur la « théorie du contrôle optimal », mais il a été découvert plus tard que les paramètres peuvent également être ajustés à l'aide de la « descente de gradient stochastique », qui est souvent utilisée dans l'apprentissage automatique

Shogi AI a continué d'évoluer depuis lors, et lors d'un match officiel en 2013, "ponanza" a battu le joueur de shogi professionnel Shinichi Sato, 4-dan . Cette réponse a également utilisé la recherche αβ et l'ajustement des paramètres de la fonction d'évaluation à l'aide de l'apprentissage automatique.
De plus, le nombre moyen de coups légaux au Shogi (coups qui peuvent être effectués sans enfreindre les règles) est de 80, donc si vous réussissez un coup total, vous pourrez évaluer 80 façons si vous avez un coup d'avance, et 80 x 80 (80 x 80) pour 6400 façons si vous avez deux coups d'avance. Cependant, le nombre moyen de branches de Bonanza (le nombre d'évaluations par coup) est passé de 3 au début à environ 5 aux dernières étapes. Le nombre moyen de branches de la dernière IA est de 2, et on dit qu'elle peut évaluer jusqu'à 30 coups d'avance.

AI Shogi actuelle
Ici, 10 événements qui ont eu un impact important depuis 2013, lorsque l'IA du shogi a surpassé les humains, jusqu'à aujourd'hui sont mis en évidence.

weightApprentissage par renforcement
Bonanza apprenait des records de jeu des joueurs professionnels, mais il n'y en avait qu'environ 30 000, ce qui était bien inférieur au nombre de paramètres dont Bonanza disposait.
De plus, depuis que Shogi AI est devenu plus fort que les joueurs professionnels de Shogi, l'intérêt d'utiliser les enregistrements de jeu des joueurs professionnels de Shogi a diminué, de sorte que les développeurs ont commencé à demander à Shogi AI d'apprendre les enregistrements de jeu générés en jouant à des jeux.

weightTournoi Shogi AI
En plus du Championnat du monde de shogi informatique, organisé chaque année depuis 1990, sont désormais organisés le tournoi Shogi Den-O (2013-2017), le tournoi mondial Shogi AI Denryu (à partir de 2021), etc. Le gros prix en argent a été une grande motivation pour les développeurs.

weightYaneuraou open source
　Yaneuraou a été publié sur GitHub en 2015 et est devenu open source. Alors que de nombreuses IA shogi ont une structure dans laquelle la fonction d'évaluation et la section de recherche sont intégrées, Yaneuraoh était hautement modulaire, il était donc possible de remplacer la fonction d'évaluation ou la section de recherche. Elle est désormais utilisée par de nombreux développeurs.

QuantityÉvolution du Stockfish

"Stockfish" est une IA d'échecs open source avec un grand nombre de participants dans la communauté des développeurs, et une petite amélioration aurait été testée des dizaines de milliers de fois. Bien que le jeu soit différent, la partie exploration a de nombreuses applications qui peuvent être appliquées au shogi, et l'évolution de Stockfish a également conduit à l'évolution de l'IA du shogi.

QuantityFonction d'évaluation NNUE

``NNUE'' est une fonction d'évaluation qui peut effectuer des calculs de différence à grande vitesse en utilisant uniquement le processeur et a été introduite en 2018. Elle est désormais devenue courante, remplaçant la fonction d'évaluation appelée relation en trois parties utilisée dans Bonanza.

QuantityAlpha Zéro

"AlphaZero" est une IA pour Go, Shogi et Chess développée par Google DeepMind en 2017. Il exploite pleinement l'apprentissage profond et se caractérise également par l'adoption de la « recherche arborescente de Monte Carlo » au lieu de la méthode αβ, auparavant courante. Les IA Shogi créées sur la base de l'article d'AlphaZero incluent ``dlshogi'', ``AobaZero'' et ``Fukauraou''
, et dans les tournois shogi AI actuels, le type AlphaZero et le type conventionnel (méthode αβ) sont utilisés. est actif.

weightnnue-pytorch

``nnue-pytorch''
réalise l'apprentissage automatique pour NNUE à l'aide du GPU, réduisant considérablement le temps requis pour l'apprentissage. C'est devenu la force motrice qui a poussé l'auteur Hisjun Noda à remporter le Championnat du monde de shogi informatique qui se tiendra en mai 2024.

QuantityComment créer un logiciel de shogi puissant

« Comment créer un logiciel Shogi puissant »
est un livre écrit par Tadao Yamaoka , le développeur de dlshogi. Il est écrit sur le développement d'une IA de shogi basée sur l'apprentissage profond, et il est dit qu'avec seulement les connaissances écrites ici, il est possible de créer une IA de shogi qui est plus forte qu'un joueur de shogi professionnel.

QuantityPublier des données sur les enseignants de haute qualité
M. Yamaoka, qui a écrit sur la façon de créer un logiciel de shogi puissant, et M. Tayan Sugimura, qui prend la parole lors de cette session, ont publié des données sur les enseignants (données pour l'apprentissage). Dans l'apprentissage par renforcement pour l'IA shogi, le coût de création des données d'entraînement est supérieur au coût d'apprentissage. Il semble donc que la barrière à l’entrée ait soudainement diminué avec cette divulgation.

M. Sugimura a expliqué la raison : « Même si vous êtes le seul à l'avoir, vous ne pourrez peut-être pas l'utiliser, donc dans ce cas, il est préférable que quelqu'un d'autre l'utilise et dise : « J'ai utilisé le données.''''

● Montée des SNS

Vers 2013, de nombreux développeurs d’IA shogi étaient des chercheurs universitaires et beaucoup n’utilisaient pas les SNS. Depuis la version open source de King Yaneura, le nombre de nouvelles personnes entrant dans ce domaine a augmenté, et un changement de génération s'est produit, et il y a désormais beaucoup d'interactions entre les développeurs sur X et Discord.

Histoire de l'amélioration de l'IA Shogi vue à travers les notes

"Iro Rating" est utilisé pour exprimer la force de Shogi AI. Il s’agit d’un indice conçu à l’origine pour exprimer les compétences aux échecs, et il s’appuie également sur les mathématiques.

Selon Shogi Club 24, le site officiel de compétition de shogi en ligne de la Fédération japonaise de shogi, qui est également utilisé par les joueurs professionnels, la limite humaine est d'environ 3 000 à 3 300, et pour les amateurs du premier dan, elle est d'environ 1 000. Cependant, la note de Bonanza en 2005, il était 2360.

En 2009, lorsque Bonanza contre Mei Ryuo Watanabe, Ryuo Watanabe a surmonté une situation où il pensait qu'il pourrait être vaincu et gagné, mais la note de Bonanza à cette époque était de 2815. On voit que Ryuo Watanabe, dont la force est proche de la limite humaine, a pu remporter cette victoire.

En 2013, "Gikou" était à 3713, soit plus de 400 points de plus que la limite humaine de 3300. Apparemment, une différence de 400 signifie que vous pouvez gagner avec une probabilité de plus de 90 %. Et le vainqueur du Championnat du monde de shogi informatique 2024 "Voulez-vous devenir membre du CSA ?" a un score de 4914, ce qui est bien au-delà de celui des humains.

L’important est qu’il s’agit d’une évaluation basée sur un ordinateur portable typique à laquelle il faut environ 5 secondes pour y réfléchir. M. Sugimura a déclaré qu'en utilisant quelque chose comme un superordinateur, il ne serait pas surprenant que ce nombre puisse atteindre environ 7 000.

Shogi AI a évolué jusqu'à présent et est utilisé par un large éventail de joueurs, professionnels et amateurs. Il est souvent utilisé de manière à ce que l'IA analyse le shogi que vous avez joué et vérifie quel coup était mauvais, ou qu'elle analyse la situation attendue dans un jeu et considère le meilleur coup pour cette situation.

L'avenir de l'IA shogi

Quant à l'avenir, ils ont discuté de la manière de développer l'IA shogi la plus puissante au monde.

L'IA shogi actuelle peut être grossièrement divisée en « type NNUE » conventionnel qui utilise la recherche αβ, et en « type DL » qui utilise l'apprentissage profond à grande échelle. Et depuis que le code source de Yaneuraou et du dlshogi, qui sont représentatifs de chacun, a été publié, il y a de fortes chances que l'IA shogi la plus puissante au monde soit créée en apportant une amélioration. Alors, que peut-on améliorer à partir de là ? Ce sont les cinq suivants.

QuantityFonction d'évaluation améliorée

Étant donné que le type NNUE actuel utilise le processeur pour effectuer les calculs, il existe un compromis entre la précision de la fonction d'évaluation et le nombre de scénarios pouvant être recherchés, ce qui rend son ajustement extrêmement difficile. Cependant, les calculs GPU seraient incompatibles avec la recherche αβ. D'autre part, on sait que ResNet, la fonction d'évaluation utilisée dans de nombreux types DL, peut être renforcée en introduisant le mécanisme d'attention du transformateur utilisé dans les modèles de langage tels que ChatGPT, et il est possible d'utiliser les connaissances du domaine de l'apprentissage automatique. C'est ce qu'ils disent.

QuantityAjustement des données des enseignants

L'IA shogi de type NNUE recherche plus de 100 millions de positions par seconde sur une machine spécifique au tournoi, mais la précision de l'évaluation des positions n'est pas très élevée, on dit donc qu'elle est relativement plus forte dans les étapes finales que dans les premières étapes. Par conséquent, lors de l’apprentissage de l’IA shogi de type NNUE, il semble y avoir une tendance à mieux se concentrer sur les premières étapes. D'un autre côté, il y a aussi l'idée que puisque les premiers stades, jusqu'au 32ème coup environ, progressent souvent de manière fixe (la meilleure façon de se déplacer basée sur les recherches antérieures), il n'y a aucun problème à omettre l'apprentissage à ce point.

De plus, étant donné que les tours qui se balancent ne sont pas considérées comme une tactique efficace dans le tournoi actuel, il semble y avoir un moyen de les omettre.

QuantityGénération automatique de repères fixes

Comme il existe des limites à la modification manuelle des marques fixes, les meilleures équipes tentent de les générer automatiquement. Cependant, afin de créer des mouvements d'échecs très précis, l'IA du shogi doit fonctionner longtemps dans une partie, ce qui n'est donc pas non plus très efficace. Il semble que les personnes familiarisées avec la théorie des graphes et la recherche dans les arbres de jeu soient capables de générer un grand nombre de pistes.

QuantityAmélioration de la section de recherche

Le type NNUE est basé sur la section de recherche de l'IA d'échecs Stockfish, mais de la même manière, il est possible qu'il soit renforcé en apportant à l'IA du shogi des idées de recherche qui ont réussi dans d'autres IA. est.

weightRessources informatiques sécurisées

En termes simples, les ressources informatiques sont des ordinateurs. Ces dernières années, il est devenu de plus en plus difficile pour les particuliers de sécuriser les ordinateurs nécessaires à la création de données sur les enseignants, et le nombre de cas où de grandes entreprises sponsorisent les ordinateurs augmente. Il semble que si vous parvenez à créer une grande quantité de données d’entraînement, vous pourriez devenir le plus fort du monde.

　Shogi AI a évolué depuis qu'il a été rendu open source par Yaneurao, les développeurs ayant des idées. Même maintenant, il semble qu'il y ait une chance de devenir le plus fort du monde en apportant simplement des modifications à l'une des cinq améliorations introduites cette fois-ci, plutôt qu'à toutes.

Le contenu de la séance est ci-dessus, mais à la fin il y a eu des questions du public. La question est : « Je pense qu'il existe un moyen infaillible de gagner au shogi, qui n'a aucun élément de chance, mais parviendrons-nous un jour à ce point ? »

M. Sugimura dit que Shogi est un "jeu d'information fini et parfait à somme nulle à deux joueurs" , et bien qu'il existe un moyen infaillible de gagner ou un match nul garanti, il y a tellement d'options qu'il est difficile d'atteindre le La réponse était que ce serait difficile et que même si une méthode gagnante était déterminée, il n'y aurait aucun moyen de la sauvegarder sous forme de données.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!