La boîte noire d'AlphaZero est ouverte ! Article DeepMind publié dans PNAS-IA-php.cn

Table des matières

AlphaZero acquiert des concepts d'échecs humains en formation

Le processus de maîtrise des connaissances d'AlphaZero

Maison

Périphériques technologiques

La boîte noire d'AlphaZero est ouverte ! Article DeepMind publié dans PNAS

王林

Apr 12, 2023 pm 08:37 PM

ai 神经网络

Les échecs ont toujours été un terrain d'essai pour l'IA. Il y a 70 ans, Alan Turing émettait l’hypothèse qu’il serait possible de construire une machine à jouer aux échecs capable d’apprendre par elle-même et de s’améliorer continuellement grâce à sa propre expérience. "Deep Blue", apparu au siècle dernier, a vaincu les humains pour la première fois, mais il s'est appuyé sur des experts pour coder les connaissances humaines en matière d'échecs. AlphaZero, né en 2017, a réalisé la conjecture de Turing en tant que machine d'apprentissage par renforcement pilotée par un réseau neuronal.

AlphaZero n'a pas besoin d'utiliser d'algorithmes heuristiques conçus artificiellement, ni de regarder des humains jouer aux échecs, mais est entièrement formé en jouant aux échecs par lui-même.

Alors, apprend-il vraiment des concepts humains sur les échecs ? Il s’agit d’un problème d’interprétabilité du réseau neuronal.

En réponse, Demis Hassabis, l'auteur d'AlphaZero, a collaboré avec des collègues de DeepMind et des chercheurs de Google Brain sur une étude visant à trouver des preuves de concepts d'échecs humains dans le réseau neuronal d'AlphaZero, montrant comment le réseau a acquis pendant l'entraînement le timing et le placement de ces concepts a également révélé le style de jeu d'échecs différent d'AlphaZero par rapport aux humains. L'article a été récemment publié dans PNAS.

La boîte noire dAlphaZero est ouverte ! Article DeepMind publié dans PNAS

Adresse papier : https://www.pnas.org/doi/epdf/10.1073/pnas.2206625119

AlphaZero acquiert des concepts d'échecs humains en formation

Le réseau AlphaZero l'architecture contient une épine dorsale Le réseau résiduel du réseau (ResNet) et le responsable de la politique et le responsable de la valeur distincts ResNet se composent d'une série de couches composées de blocs de réseau et de connexions sautées.

En termes d'itérations d'entraînement, AlphaZero démarre avec un réseau neuronal avec des paramètres initialisés de manière aléatoire, joue aux échecs à plusieurs reprises contre lui-même, apprend l'évaluation de la position des pièces d'échecs et est entraîné plusieurs fois en fonction des données générées dans le processus.

Pour déterminer dans quelle mesure le réseau AlphaZero représente les concepts d'échecs compris par l'homme, cette étude a utilisé des méthodes de sondage linéaires clairsemées pour cartographier les changements dans les paramètres du réseau au cours de l'entraînement en changements dans les concepts compréhensibles par l'homme.

Commencez par définir le concept comme une fonction définie par l'utilisateur, comme indiqué en orange dans la figure 1. La fonction linéaire généralisée g est entraînée comme une sonde pour se rapprocher d'un concept d'échecs c. La qualité de l'approximation g indique dans quelle mesure la couche code (linéairement) le concept. Pour un concept donné, le processus est répété pour les séquences de réseau produites lors du processus de formation pour toutes les couches de chaque réseau.

La boîte noire dAlphaZero est ouverte ! Article DeepMind publié dans PNAS

Figure 1 : Exploration des concepts d'échecs codés par l'homme dans le réseau AlphaZero (bleu). ♗ Mobilité (mobilité), vous pouvez écrire une fonction pour comparer nos scores et ceux de l'ennemi lors du déplacement des pièces d'échecs.

Dans cette expérience, le concept de fonction a été spécifié à l'avance, encapsulant la connaissance du domaine spécifique des échecs.

La prochaine étape consiste à entraîner la sonde. Les chercheurs ont utilisé 10 ^ 5 positions d'échecs naturelles dans l'ensemble de données ChessBase comme ensemble d'entraînement et ont formé une sonde de régression clairsemée g à partir d'une activation de réseau de profondeur d pour prédire la valeur d'un concept donné c. La boîte noire dAlphaZero est ouverte ! Article DeepMind publié dans PNAS

En comparant les réseaux à différentes étapes de formation du cycle d'auto-apprentissage AlphaZero et les scores de différentes sondes de concepts à différentes couches de chaque réseau, l'heure et la position auxquelles le réseau a appris un certain concept peuvent être extraites.

Enfin, nous obtenons le diagramme quoi, quand et où de chaque concept, qui sont les trois indicateurs de "quel est le concept en cours de calcul", "où dans le réseau le calcul a-t-il lieu" et "quand le concept apparaît-il". pendant la formation réseau" Visualisez. Comme le montre la figure 2.

La boîte noire dAlphaZero est ouverte ! Article DeepMind publié dans PNAS

Figure 2 : Les concepts de A à B sont « évaluation du score total », « avons-nous été généralisés », « évaluation de la menace », « pouvons-nous vaincre l'ennemi » « Est-ce que le reine du camp ?", "Le mouvement de l'ennemi va-t-il tuer notre camp ?", "Evaluation du score de force des pièces", "Le score de force des pièces", "Avons-nous les soldats du roi ?"

On peut voir sur la figure C qu'à mesure qu'AlphaZero devient plus fort, la fonction du concept de « menaces » et la représentation d'AlphaZero (qui peut être détecté par des sondes linéaires) deviennent de moins en moins pertinentes.

Un tel graphique quoi-quand-où comprend les deux lignes de base nécessaires à la comparaison des méthodes de détection, l'une est la régression d'entrée, affichée à la couche 0, et l'autre est la régression à partir des activations de réseau avec des poids aléatoires, lors de l'entraînement. étape 0 affichée partout. À partir des résultats de la figure ci-dessus, on peut conclure que les changements dans la précision de la régression sont entièrement déterminés par les changements dans la représentation du réseau.

De plus, les résultats de nombreux graphiques quoi-quand-où montrent le même schéma, c'est-à-dire que la précision de la régression de l'ensemble du réseau est très faible jusqu'à environ 32 000 pas, et elle ne commence pas à s'améliorer rapidement avec le augmentation de la profondeur du réseau, puis se stabilise et reste inchangé dans les couches suivantes. Ainsi, tous les calculs liés aux concepts ont lieu relativement tôt dans le réseau, tandis que les blocs résiduels suivants effectuent une sélection de déplacement ou calculent des fonctionnalités en dehors de l'ensemble de concepts donné.

De plus, au fur et à mesure de la formation, de nombreux concepts définis par l'homme peuvent être prédits à partir des représentations d'AlphaZero avec une grande précision de prédiction.

Pour les concepts plus avancés, les chercheurs ont trouvé des différences dans les domaines dans lesquels AlphaZero les maîtrisait. Premièrement, les concepts qui sont significativement différents de zéro à 2 000 étapes de formation sont « matériel » et « espace » ; des concepts plus complexes tels que « sécurité royale », « menaces » et « mobilité » sont significativement différents de zéro à 8 000 étapes de formation. Zéro, et n'augmente substantiellement qu'après 32 000 étapes d'entraînement. Ce résultat est cohérent avec le point en forte hausse illustré par le graphique quoi, quand et où de la figure 2. La boîte noire dAlphaZero est ouverte ! Article DeepMind publié dans PNAS

De plus, une caractéristique notable de la plupart des graphiques quoi-quand-où est que la précision de la régression du réseau augmente rapidement au début, puis atteint un plateau ou diminue. Cela suggère que l’ensemble des concepts découverts jusqu’à présent par AlphaZero ne détecte que les couches antérieures du réseau et que la compréhension des couches ultérieures nécessite de nouvelles techniques de détection de concepts.

La stratégie d'ouverture d'AlphaZero est différente de celle des humains

Après avoir observé qu'AlphaZero avait appris les concepts d'échecs humains, les chercheurs ont exploré plus en détail la compréhension d'AlphaZero des tactiques d'échecs en termes de stratégie d'ouverture, car le choix de l'ouverture implique également que les joueurs comprennent les concepts associés. .

La boîte noire dAlphaZero est ouverte ! Article DeepMind publié dans PNAS

Les chercheurs ont observé qu'AlphaZero et les humains avaient des stratégies d'ouverture différentes : au fil du temps, AlphaZero a rétréci l'éventail des choix, tandis que les humains ont élargi l'éventail des choix.

La figure 3A montre l'évolution historique de la préférence humaine pour le premier coup des blancs. Au début, e4 était populaire comme premier coup, et les stratégies d'ouverture ultérieures sont devenues plus équilibrées et flexibles.

La figure 3B montre l'évolution de la stratégie d'ouverture d'AlphaZero ainsi que les étapes de formation. Comme vous pouvez le constater, AlphaZero commence toujours par peser toutes les options de manière égale, puis réduit progressivement les options.

La boîte noire dAlphaZero est ouverte ! Article DeepMind publié dans PNAS

Figure 3 : Comparaison d'AlphaZero et des préférences humaines pour la première étape sur les étapes et le temps d'entraînement.

Cela contraste fortement avec l'évolution des connaissances humaines, qui s'étend progressivement à partir du e4, alors qu'AlphaZero favorise clairement le d4 dans les étapes ultérieures de la formation. Cette préférence n'a cependant pas besoin d'être surexpliquée, car l'entraînement au jeu personnel est basé sur un jeu rapide avec beaucoup d'aléatoire ajouté pour faciliter l'exploration.

La raison de cette différence n'est pas claire, mais elle reflète une différence fondamentale entre les humains et les réseaux de neurones artificiels. Un facteur possible pourrait être que les données historiques sur les échecs humains mettent l'accent sur les connaissances collectives des joueurs maîtres, alors que les données d'AlphaZero incluent le jeu d'échecs de niveau débutant et une seule stratégie évoluée.

Alors, lorsque le réseau neuronal d'AlphaZero est entraîné plusieurs fois, montrera-t-il une préférence stable pour certaines stratégies d'ouverture ?

Le résultat de la recherche est que dans de nombreux cas, cette préférence n'est pas stable dans différentes formations, et les stratégies d'ouverture d'AlphaZero sont très diverses. Par exemple, dans l'ouverture classique de Ruy Lopez (communément appelée « ouverture espagnole »), AlphaZero a une préférence pour le choix du noir au début et suit la méthode de jeu typique, à savoir 1.e4 e5, 2.Cf3 Cc6, 3. .Bb5.

La boîte noire dAlphaZero est ouverte ! Article DeepMind publié dans PNAS

Figure 4 : Ruy Lopez démarre

Dans différentes formations, AlphaZero convergera progressivement vers l'un des 3.f6 et 3.a6. De plus, différentes versions du modèle AlphaZero ont chacune montré une forte préférence pour une action plutôt qu’une autre, et cette préférence a été établie dès le début de la formation.

C'est une preuve supplémentaire qu'il existe une diversité de parties d'échecs réussies, et cette diversité existe non seulement entre les humains et les machines, mais également à travers les différentes itérations de formation d'AlphaZero.

Le processus de maîtrise des connaissances d'AlphaZero

Alors, quel est le lien entre les résultats de recherche ci-dessus sur les stratégies d'ouverture et la compréhension des concepts d'AlphaZero ?

Cette étude a révélé qu'il existe un point d'inflexion clair dans les graphiques quoi-quand-où de divers concepts, qui coïncide avec des changements significatifs dans les préférences d'ouverture. En particulier, les concepts de matériau et de mobilité semblent être directement liés. stratégies d'ouverture.

La notion de matière a été principalement apprise entre les étapes d'entraînement 10k et 30k, et la notion de mobilité des pièces a été progressivement intégrée dans la tête de valeur d'AlphaZero au cours de la même période. Une compréhension de base de la valeur matérielle des pièces d’échecs devrait précéder une compréhension de la mobilité des pièces d’échecs. AlphaZero a ensuite intégré cette théorie dans les préférences d'ouverture entre 25 000 et 60 000 étapes d'entraînement.

L'auteur a analysé plus en détail l'évolution des connaissances du réseau AlphaZero sur les échecs : d'abord la découverte de la puissance des échecs ; puis la croissance explosive des connaissances de base dans un court laps de temps, principalement les concepts liés à la mobilité et enfin l'étape d'amélioration ; La stratégie d'ouverture du réseau neuronal est affinée au fil de centaines de milliers d'étapes de formation. Même si la durée globale de l’apprentissage est longue, des capacités de base spécifiques émergent rapidement dans un laps de temps relativement court.

L'ancien champion du monde d'échecs Vladimir Kramnik a également été amené à étayer cette conclusion, et ses observations étaient cohérentes avec le processus ci-dessus.

Enfin, ce travail démontre que la représentation d'échiquier apprise par le réseau AlphaZero est capable de reconstruire de nombreux concepts d'échecs humains, et détaille le contenu conceptuel appris par le réseau, le temps qu'il faut pour apprendre les concepts en temps de formation, et l'emplacement du réseau des concepts informatiques. De plus, le style de jeu d’échecs d’AlphaZero n’est pas le même que celui des humains.

Maintenant que nous comprenons les réseaux de neurones en termes du concept d'échecs défini par l'homme, la prochaine question sera : les réseaux de neurones peuvent-ils apprendre des choses au-delà de la connaissance humaine ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7457

Tutoriel CakePHP

1376

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Quelle méthode est utilisée pour convertir les chaînes en objets dans vue.js? Apr 07, 2025 pm 09:39 PM

Lors de la conversion des chaînes en objets dans vue.js, JSON.Parse () est préféré pour les chaînes JSON standard. Pour les chaînes JSON non standard, la chaîne peut être traitée en utilisant des expressions régulières et réduisez les méthodes en fonction du format ou du codé décodé par URL. Sélectionnez la méthode appropriée en fonction du format de chaîne et faites attention aux problèmes de sécurité et d'encodage pour éviter les bogues.

Comment utiliser MySQL après l'installation Apr 08, 2025 am 11:48 AM

L'article présente le fonctionnement de la base de données MySQL. Tout d'abord, vous devez installer un client MySQL, tel que MySQLWorkBench ou le client de ligne de commande. 1. Utilisez la commande MySQL-UROot-P pour vous connecter au serveur et connecter avec le mot de passe du compte racine; 2. Utilisez Createdatabase pour créer une base de données et utilisez Sélectionner une base de données; 3. Utilisez CreateTable pour créer une table, définissez des champs et des types de données; 4. Utilisez InsertInto pour insérer des données, remettre en question les données, mettre à jour les données par mise à jour et supprimer les données par Supprimer. Ce n'est qu'en maîtrisant ces étapes, en apprenant à faire face à des problèmes courants et à l'optimisation des performances de la base de données que vous pouvez utiliser efficacement MySQL.

Géospatial de Laravel: optimisation des cartes interactives et de grandes quantités de données Apr 08, 2025 pm 12:24 PM

Traiter efficacement 7 millions d'enregistrements et créer des cartes interactives avec la technologie géospatiale. Cet article explore comment traiter efficacement plus de 7 millions d'enregistrements en utilisant Laravel et MySQL et les convertir en visualisations de cartes interactives. Exigences initiales du projet de défi: extraire des informations précieuses en utilisant 7 millions d'enregistrements dans la base de données MySQL. Beaucoup de gens considèrent d'abord les langages de programmation, mais ignorent la base de données elle-même: peut-il répondre aux besoins? La migration des données ou l'ajustement structurel est-il requis? MySQL peut-il résister à une charge de données aussi importante? Analyse préliminaire: les filtres et les propriétés clés doivent être identifiés. Après analyse, il a été constaté que seuls quelques attributs étaient liés à la solution. Nous avons vérifié la faisabilité du filtre et établi certaines restrictions pour optimiser la recherche. Recherche de cartes basée sur la ville

Comment résoudre MySQL ne peut pas être démarré Apr 08, 2025 pm 02:21 PM

Il existe de nombreuses raisons pour lesquelles la startup MySQL échoue, et elle peut être diagnostiquée en vérifiant le journal des erreurs. Les causes courantes incluent les conflits de port (vérifier l'occupation du port et la configuration de modification), les problèmes d'autorisation (vérifier le service exécutant les autorisations des utilisateurs), les erreurs de fichier de configuration (vérifier les paramètres des paramètres), la corruption du répertoire de données (restaurer les données ou reconstruire l'espace de la table), les problèmes d'espace de la table InNODB (vérifier les fichiers IBDATA1), la défaillance du chargement du plug-in (vérification du journal des erreurs). Lors de la résolution de problèmes, vous devez les analyser en fonction du journal d'erreur, trouver la cause profonde du problème et développer l'habitude de sauvegarder régulièrement les données pour prévenir et résoudre des problèmes.

Vue.js Comment convertir un tableau de type de chaîne en un tableau d'objets? Apr 07, 2025 pm 09:36 PM

Résumé: Il existe les méthodes suivantes pour convertir les tableaux de chaîne Vue.js en tableaux d'objets: Méthode de base: utilisez la fonction de carte pour convenir à des données formatées régulières. Gameplay avancé: l'utilisation d'expressions régulières peut gérer des formats complexes, mais ils doivent être soigneusement écrits et considérés. Optimisation des performances: Considérant la grande quantité de données, des opérations asynchrones ou des bibliothèques efficaces de traitement des données peuvent être utilisées. MEILLEUR PRATIQUE: Effacer le style de code, utilisez des noms de variables significatifs et des commentaires pour garder le code concis.

Comment définir le délai de Vue Axios Apr 07, 2025 pm 10:03 PM

Afin de définir le délai d'expiration de Vue Axios, nous pouvons créer une instance AxiOS et spécifier l'option Timeout: dans les paramètres globaux: vue.prototype. $ Axios = axios.create ({timeout: 5000}); Dans une seule demande: ce. $ axios.get ('/ api / utilisateurs', {timeout: 10000}).

Comment optimiser les performances de la base de données après l'installation de MySQL Apr 08, 2025 am 11:36 AM

L'optimisation des performances MySQL doit commencer à partir de trois aspects: configuration d'installation, indexation et optimisation des requêtes, surveillance et réglage. 1. Après l'installation, vous devez ajuster le fichier my.cnf en fonction de la configuration du serveur, tel que le paramètre innodb_buffer_pool_size, et fermer query_cache_size; 2. Créez un index approprié pour éviter les index excessifs et optimiser les instructions de requête, telles que l'utilisation de la commande Explication pour analyser le plan d'exécution; 3. Utilisez le propre outil de surveillance de MySQL (ShowProcessList, Showstatus) pour surveiller la santé de la base de données, et sauvegarde régulièrement et organisez la base de données. Ce n'est qu'en optimisant en continu ces étapes que les performances de la base de données MySQL peuvent être améliorées.

Les ingénieurs de backend senior à distance (plates-formes) ont besoin de cercles Apr 08, 2025 pm 12:27 PM

Ingénieur backend à distance Emploi Vacant Société: Emplacement du cercle: Bureau à distance Type d'emploi: Salaire à temps plein: 130 000 $ - 140 000 $ Description du poste Participez à la recherche et au développement des applications mobiles Circle et des fonctionnalités publiques liées à l'API couvrant l'intégralité du cycle de vie de développement logiciel. Les principales responsabilités complètent indépendamment les travaux de développement basés sur RubyOnRails et collaborent avec l'équipe frontale React / Redux / Relay. Créez les fonctionnalités de base et les améliorations des applications Web et travaillez en étroite collaboration avec les concepteurs et le leadership tout au long du processus de conception fonctionnelle. Promouvoir les processus de développement positifs et hiérarchiser la vitesse d'itération. Nécessite plus de 6 ans de backend d'applications Web complexe

See all articles