Lorsque les machines pensent à l'avance: la montée de l'IA stratégique-IA-php.cn

AI stratégique

Prologue

11. Mai 1997, New York City.

C'était une belle journée de printemps à New York. Le ciel était clair et les températures montaient vers 20 degrés Celsius. Les Yankees se sont préparés à jouer les Royals de Kansas City au Yankee Stadium, et les Rangers étaient confrontés aux Devils au Madison Square Garden.

Rien ne semblait hors de l'ordinaire, mais les gens se rassemblant au centre équitable de Midtown Manhattan étaient sur le point de vivre quelque chose de vraiment unique. Ils étaient sur le point d'assister à l'événement historique lorsqu'un ordinateur, pour la première fois, battrait un champion du monde en titre dans les échecs dans des conditions de tournoi standard.

représentant les humains était Gary Kasparov, largement reconnu comme le meilleur joueur d'échecs du monde à l'époque. Et représentant les machines, Deep Blue - un ordinateur d'échecs développé par IBM. En entrant dans le dernier et 6e match du match, les deux joueurs avaient 2,5 points. C'est aujourd'hui que le gagnant devait être décidé.

Gary a commencé comme noir, mais a fait une erreur précoce et a fait face à une attaque forte et agressive de Bleed Blue. Après seulement 19 mouvements, c'était fini. Kasparov, se sentant démoralisé et sous pression, a démissionné, croyant que sa position était intenable. Un symbolique, et par beaucoup salué comme l'un des moments les plus importants entre l'homme et la machine était un fait. Cet événement historique a marqué un tournant dans le développement de l'IA, mettant en évidence le potentiel - et les défis - de l'IA stratégique.

Introduction

Inspiré par les progrès récents de l'IA générative - et mes propres expériences avec des modèles de grandes langues et leurs capacités stratégiques - j'ai de plus en plus réfléchi à l'IA stratégique. Comment avons-nous essayé d'aborder ce sujet dans le passé? Quels sont les défis et ce qui reste à résoudre avant d'avoir un agent d'IA stratégique plus généraliste?

En tant que scientifiques des données, nous mettons en œuvre de plus en plus des solutions d'IA pour nos clients et employeurs. Pour la société dans son ensemble, l'interaction toujours croissante avec l'IA rend essentiel à comprendre le développement de l'IA et en particulier l'IA stratégique. Une fois que nous avons des agents autonomes ayant la capacité de bien manœuvrer dans des contextes stratégiques, cela aura des implications profondes pour tout le monde.

Mais que voulons-nous dire exactement lorsque nous disons AI stratégique ? À la base, l'IA stratégique implique que les machines prennent des décisions qui non seulement considèrent les actions potentielles, mais anticipent et influencent également les réponses des autres. Il s'agit de maximiser les résultats attendus dans des environnements complexes et incertains.

Dans cet article, nous définirons l'IA stratégique, explorer ce qu'elle est et comment elle s'est développée au fil des ans depuis le beat profond Blue d'IBM en 1997. Nous essaierons de comprendre l'architecture générale de certains des modèles, et En outre, examinez également les grands modèles de langue (LLM) s'insèrent dans l'image. En comprenant ces tendances et ces développements, nous pouvons mieux nous préparer à un monde où les agents d'IA autonomes sont intégrés dans la société.

Définition de Ai stratégique

Une discussion plus profonde sur l'IA stratégique commence par une définition bien formulée du sujet.

Lorsque nous considérons la stratégie dans un cadre commercial, nous avons souvent tendance à l'associer à des sujets tels que la pensée à long terme, l'allocation et l'optimisation des ressources, une compréhension holistique des interdépendances dans une organisation, l'alignement des décisions avec le but et la mission de l'entreprise et ainsi de suite. Bien que ces sujets soient utiles à considérer, je préfère souvent une définition théorique plus du jeu de la stratégie lorsqu'elle traite avec l'IA et les agents autonomes. Dans ce cas, nous définissons le fait d'être stratégique comme:

Choisir une ligne de conduite qui maximise votre gain attendu en considérant non seulement vos propres actions potentielles, mais aussi comment les autres réagiront à ces actions et comment vos décisions ont un impact sur la dynamique globale de l'environnement.

La partie critique de cette définition est que les choix stratégiques sont des choix qui ne se produisent pas dans le vide, mais plutôt dans le contexte d'autres participants, qu'ils soient humains, organisations ou autres IA. Ces autres entités peuvent avoir leurs propres objectifs similaires ou contradictoires et peuvent également essayer d'agir stratégiquement pour faire avancer leurs propres intérêts.

De plus, les choix stratégiques cherchent toujours à maximiser les gains attendus , que ces gains soient en termes d'argent, d'utilité ou d'autres mesures de valeur. Si nous voulions intégrer les sujets plus traditionnels "commerciaux" liés à la stratégie, nous pourrions imaginer que nous voulons maximiser la valeur d'une entreprise dans 10 ans. Dans ce cas, pour formuler une bonne stratégie, nous aurions besoin de prendre un point de vue "à long terme", et nous pourrions également considérer le "but et la mission" de l'entreprise également, pour assurer l'alignement avec la stratégie. Cependant, la poursuite de ces efforts n'est qu'une conséquence de ce que signifie réellement d'agir stratégiquement.

La vision théorique du jeu de la stratégie capture l'essence de la prise de décision stratégique et nous permet par conséquent de définir clairement ce que nous entendons par IA stratégique. D'après la définition, nous voyons que si un système ou un agent d'IA doit agir stratégiquement, il doit avoir quelques capacités de base. Plus précisément, il devra être capable de:

Modèle d'autres agents (en utilisant des techniques prédictives ou un raisonnement probabiliste; ces agents sont quelque chose d'humains, d'IS ou d'organisations).
Optimiser les actions en fonction de l'utilité attendue.
Adapter dynamiquement car ils recueillent de nouvelles informations sur les stratégies des autres agents.

Il n'y a actuellement pas de système bien connu ou bien publié, capable de toutes ces actions de manière autonome dans le monde réel. Cependant, étant donné les avancées récentes dans les systèmes d'IA et la montée rapide des LLM qui pourraient être sur le point de changer!

Autres concepts importants de la théorie des jeux

Avant de poursuivre une discussion sur l'IA stratégique, il pourrait être utile de revoir certains concepts et idées de la théorie des jeux. Une grande partie du travail qui a été effectué autour de l'IA stratégique a une base dans les concepts théoriques du jeu et l'utilisation des théorèmes de la théorie des jeux peut montrer l'existence de certaines propriétés qui facilitent les jeux et les situations plus faciles à gérer que d'autres. Il aide également à mettre en évidence certaines des lacunes de la théorie des jeux en ce qui concerne les situations du monde réel et met en évidence où nous pourrions être mieux en train de chercher dans d'autres directions pour l'inspiration.

Qu'est-ce qu'un jeu?

Nous définissons un jeu comme un modèle mathématique comprenant trois composants clés:

Joueurs : Les individus ou les entités prenant des décisions.
Stratégies : Les actions ou les plans possibles peuvent adopter.
gains : les récompenses ou les résultats reçoivent que chaque joueur reçoit en fonction des stratégies choisies.

Cette structure formelle permet l'étude systématique des interactions stratégiques et des processus de prise de décision.

finis vs jeux infinis

En parlant de jeux, il est également logique de regarder la distinction entre les jeux finis et infinis.

Les jeux finis ont un ensemble fixe de joueurs, des règles définies et un point final clair. L'objectif est de gagner, et les exemples incluent les échecs, Go, les vérificateurs et la plupart des jeux de société traditionnels.

Les jeux infinis en revanche n'ont pas de point de terminaison prédéterminé, et les règles peuvent évoluer avec le temps. L'objectif n'est pas de gagner mais de continuer à jouer. Des scénarios du monde réel comme la compétition d'affaires ou l'évolution de la société peuvent être considérés comme des jeux infinis. La guerre froide peut être considérée comme un exemple de jeu infini. Ce fut une lutte géopolitique prolongée entre les États-Unis et ses alliés (l'Occident) et l'Union soviétique et ses alliés (l'Est). Le conflit n'avait pas de point final fixe, et les stratégies et les "règles" ont évolué avec le temps.

Sous-jeux

Parfois, nous pourrions trouver des jeux plus petits dans un contexte de jeu plus grand. Mathématiquement, les sous-jeux sont des jeux autonomes à part entière, et la nécessité de satisfaire quelques critères différents:

Un sous-jeu commence à un point où le joueur sait exactement où il se trouve dans le jeu.
Il comprend toutes les actions et résultats possibles qui pourraient découler de ce point.
Il englobe toutes les connaissances et incertitudes des joueurs pertinents pour ces actions.

Nous pouvons visualiser un sous-jeu si nous imaginons un grand arbre représentant un jeu entier. Un sous-jeu, c'est comme sélectionner une branche de cet arbre à partir d'un certain point (nœud) et y compris tout ce qui s'étend, tout en garantissant que toutes les incertitudes sont entièrement représentées dans cette branche.

L'idée principale derrière un sous-jeu le rend utile pour notre discussion sur l'IA stratégique. La raison en est principalement que certains jeux infinis entre les joueurs pourraient être très complexes et difficiles à modéliser tandis que si nous choisissons de regarder des jeux plus petits dans ce jeu, nous pouvons avoir plus de succès en appliquant une analyse théorique du jeu.

Revenant à notre exemple avec la guerre froide en tant que jeu infini, nous pouvons reconnaître plusieurs sous-jeux dans ce contexte. Certains exemples incluent:

The Cuban Missile Crisis (1962):

Joueurs : Les États-Unis et l'Union soviétique.
Stratégies : Les États-Unis ont considéré des options allant des négociations diplomatiques à l'invasion militaire, tandis que l'Union soviétique devait décider de retirer les missiles ou de dégénérer la confrontation.
GAYOFFS : Éviter la guerre nucléaire, maintenir l'image mondiale et le positionnement militaire stratégique.

Le blocage de Berlin et Airlift (1948–1949):

Joueurs : Les alliés occidentaux et l'Union soviétique.
Stratégies : Les Soviétiques ont bloqué Berlin pour pousser les Alliés, tandis que les Alliés devaient décider entre abandonner la ville ou le fournir par air.
GAYOFFS : Contrôle sur Berlin, démontrant la résolution politique et influençant l'alignement européen.

Bien que bien sûr très difficile et complexe à gérer, les deux "sous-jeux" sont plus faciles à analyser et à développer des réponses qu'à l'ensemble de la guerre froide. Ils avaient un ensemble défini de joueurs, avec un ensemble limité de stratégies et de gains, ainsi que un délai plus clair. Cela les rendait tous les deux plus applicables à l'analyse théorique du jeu.

Dans le contexte de l'IA stratégique, l'analyse de ces sous-jeux est cruciale pour développer des systèmes intelligents capables de prendre des décisions optimales dans des environnements complexes et dynamiques.

Deux jeux de joueurs

Les jeux de deux joueurs sont simplement un jeu entre deux joueurs. Cela pourrait par exemple être un jeu entre deux joueurs d'échecs, ou revenir à notre exemple de guerre froide, l'Ouest contre l'Est. Avoir seulement deux joueurs dans le jeu simplifie l'analyse mais capture toujours une dynamique compétitive ou coopérative essentielle. Beaucoup de résultats dans la théorie des jeux sont basés sur deux jeux de joueurs.

jeux à somme nulle

Les jeux à somme nulle sont un sous-ensemble de jeux où le gain d'un joueur est la perte d'un autre joueur. Le gain total reste constant et les joueurs sont en compétition directe.

Équilibre Nash et actions optimales

Un équilibre de Nash (NE) est un ensemble de stratégies où aucun joueur ne peut bénéficier d'un avantage supplémentaire en changeant unilatéralement sa propre stratégie, en supposant que les autres joueurs gardent les leurs inchangés. Dans cet état, la stratégie de chaque joueur est la meilleure réponse aux stratégies des autres, conduisant à un résultat stable où aucun joueur n'a d'incitation à s'écarter.

Par exemple, dans le jeu Rock-Paper-Sissor (RPS), le NE est l'état où tous les joueurs jouent au rock, au papier et aux ciseaux, au hasard, chacun avec une probabilité égale. Si vous, en tant que joueur, choisissez de jouer à la stratégie NE, vous vous assurez qu'aucun autre joueur ne peut exploiter votre jeu et dans les jeux à sume zéro de deux joueurs, vous ne perdez pas que vous ne perdrez pas dans l'attente, et que le pire que vous puissiez faire est la pause même.

Cependant, jouer une stratégie NE n'est pas toujours la stratégie optimale, surtout si votre adversaire joue de manière prévisible sous-optimale. Considérez un scénario avec deux joueurs, A et B. Si le joueur B commence à jouer davantage en papier, le joueur A pourrait le reconnaître et augmenter sa fréquence de jeu de ciseaux. Cependant, cette déviation par rapport à A pourrait à nouveau être exploitée par B ce qui pourrait changer et jouer plus de rock.

Les principaux plats concernant Ai stratégique

En révision des concepts théoriques du jeu, il semblerait que l'idée d'un sous-jeu est particulièrement utile pour l'IA stratégique. La possibilité de trouver possible les jeux plus petits et plus faciles à analyser dans un contexte plus vaste facilite l'application des solutions et des solveurs déjà.

Par exemple, disons que vous travaillez à développer votre carrière, quelque chose qui pourrait être classé comme un jeu infini et difficile à "résoudre", mais soudain, vous avez la possibilité de négocier un nouveau contrat. Ce processus de négociation présente une opportunité pour un sous-jeu au sein de votre carrière et serait beaucoup plus accessible pour une IA stratégique en utilisant des concepts théoriques de jeu.

En effet, les humains créent des sous-jeux dans nos vies depuis des milliers d'années. Il y a environ 1500 ans en Inde, nous avons créé les origines de ce qui est maintenant connu sous le nom d'échecs. Les échecs se sont avérés être tout un défi à battre, mais nous ont également permis de commencer à développer des outils et des techniques plus matures qui pourraient être utilisés pour des situations stratégiques encore plus compliquées et difficiles.

Une courte histoire de l'IA stratégique dans les jeux

Les jeux ont fourni un terrain d'essai incroyable pour développer une IA stratégique. La nature fermée des jeux facilite la formation de modèles et le développement de techniques de solution que dans les systèmes ouverts. Les jeux sont clairement définis; Les joueurs sont connus, tout comme les gains. L'une des plus grandes et des premiers étapes a été le bleu profond, la machine qui a battu le champion du monde aux échecs.

Jalons précoces : bleu profond

Deep Blue était un supercalculateur d'échecs développé par IBM dans les années 1990. Comme indiqué dans le prologue, il est entré dans l'histoire en mai 1997 en battant le champion des échecs du monde en titre, Garry Kasparov, dans un match de six matchs. Deep Blue a utilisé du matériel et des algorithmes spécialisés capables d'évaluer 200 millions de positions d'échecs par seconde. Il a combiné des techniques de recherche par force brute avec des fonctions d'évaluation heuristique, ce qui lui permet de rechercher plus profondément les séquences de déplacement potentielles que n'importe quel système précédent. Ce qui a rendu le bleu profond spécial, c'est sa capacité à traiter rapidement un grand nombre de positions, gérant efficacement la complexité combinatoire des échecs et marquant une étape importante de l'intelligence artificielle.

Cependant, comme Gary Kasparov le note dans son interview avec Lex Fridman¹, Deep Blue était plus une machine à force brute qu'autre chose, il est donc peut-être difficile de le qualifier de tout type d'intelligence. Le cœur de la recherche est essentiellement des essais et des erreurs. Et en parlant d'erreurs, cela fait beaucoup moins d'erreurs que les humains, et selon Kasparov, c'est l'une des fonctionnalités qui a rendu difficile le battement.

avancées dans les jeux complexes : alphago

19 ans après la victoire en bleu profond dans les échecs, une équipe de DeepMind de Google a produit un autre modèle qui contribuerait à un moment spécial de l'histoire de l'IA. En 2016, Alphago est devenu le premier modèle d'IA à vaincre un joueur de go du monde, Lee Sedol.

GO est un très vieux jeu de société avec des origines en Asie, connue pour sa complexité profonde et son grand nombre de positions possibles, dépassant de loin celles des échecs. Alphago a combiné des réseaux de neurones profonds avec la recherche de Monte Carlo Tree, lui permettant d'évaluer les positions et de planifier efficacement les mouvements. Plus l'alphago est donné à l'inférence, mieux il fonctionne.

L'IA s'est entraînée sur un ensemble de données de jeux d'experts humains et s'est amélioré davantage par l'auto-play. Ce qui a rendu Alphago spécial, c'est sa capacité à gérer la complexité de GO, en utilisant des techniques avancées d'apprentissage automatique pour atteindre les performances surhumaines dans un domaine précédemment considéré comme résistant à la maîtrise de l'IA.

On pourrait dire que Alphago présente plus d'intelligence que le bleu profond, étant donné sa capacité exceptionnelle à évaluer profondément les états du conseil d'administration et à sélectionner les mouvements. Déplacer 37 de son match de 2016 contre Lee Sedol est un exemple classique. Pour ceux qui connaissaient GO, c'était une épaule à la cinquième ligne et initialement déconcerté des commentateurs, dont Lee Sedol lui-même. Mais comme cela deviendrait plus tard, cette décision a été un jeu brillant et a montré comment Alphago explorerait les stratégies que les joueurs humains pourraient négliger et ignorer.

combinant les échecs et allez: Alphazero

Un an plus tard, Google Deepmind a de nouveau fait la une des journaux. Cette fois, ils ont pris de nombreux enseignements d'Alphago et ont créé Alphazero, qui était plus un système d'IA à usage général qui maîtrisait les échecs, ainsi que Go et Shogi. Les chercheurs ont pu construire l'IA uniquement par l'apprentissage de l'auto-play et du renforcement sans connaissances ou données humaines antérieures. Contrairement aux moteurs d'échecs traditionnels qui reposent sur des fonctions d'évaluation fabriqués à la main et des bibliothèques d'ouverture approfondies, Alphazer a utilisé des réseaux de neurones profonds et un nouvel algorithme combinant la recherche de monte carlo avec auto-apprentissage.

Le système a commencé avec uniquement les règles de base et a appris des stratégies optimales en jouant des millions de jeux contre lui-même. Ce qui a rendu Alphazero spécial, c'est sa capacité à découvrir des stratégies créatives et efficaces, présentant un nouveau paradigme dans l'IA qui exploite l'auto-apprentissage sur les connaissances en matière d'homme.

Intégration de la vitesse et de la stratégie: Star Craft II

Poursuivant sa domination dans l'espace de l'IA, l'équipe Google DeepMind a changé son objectif en un jeu informatique très populaire, Starcraft II. En 2019, ils ont développé une IA appelée Alphastar² qui a pu atteindre un jeu de niveau Grandmaster et se classer plus que 99,8% des joueurs humains dans le classement compétitif.

Starcraft II est un jeu de stratégie en temps réel qui a fourni plusieurs nouveaux défis à l'équipe de DeepMind. Le but du jeu est de conquérir le joueur ou les joueurs adverses, en rassemblant des ressources, en construisant des bâtiments et en amassant des armées qui peuvent vaincre l'adversaire. Les principaux défis de ce jeu découlent de l'énorme espace d'action qui doit être pris en compte, de la prise de décision en temps réel, de l'observabilité partielle due au brouillard de la guerre et à la nécessité d'une planification stratégique à long terme, car certains jeux peuvent durer des heures.

En s'appuyant sur certaines des techniques développées pour les IA précédentes, comme l'apprentissage du renforcement à travers des réseaux de neurones de soi et de profondeur, l'équipe a pu faire un moteur de jeu unique. Premièrement, ils ont formé un filet de neurones en utilisant l'apprentissage supervisé et le jeu humain. Ensuite, ils ont utilisé cela pour semer un autre algorithme qui pourrait jouer contre lui-même dans un cadre de jeu multi-agents. L'équipe DeepMind a créé une ligue virtuelle où les agents pourraient explorer des stratégies les uns contre les autres et où les stratégies dominantes seraient récompensées. En fin de compte, ils ont combiné les stratégies de la ligue en une super stratégie qui pourraient être efficaces contre de nombreux adversaires et stratégies différents. Dans leurs propres mots³:

L'agent alphastar final se compose des composants de la distribution NASH de la ligue - en d'autres termes, le mélange le plus efficace de stratégies qui ont été découvertes - qui fonctionnent sur un seul GPU de bureau

Dive profonde dans Pluribus et Poker

J'adore jouer au poker, et quand je vivais et que j'étudiais à Trondheim, nous avions l'habitude d'avoir un jeu en espèces hebdomadaire qui pourrait devenir assez intense! L'un des derniers jalons à être éclipsé par l'IA stratégique était dans le jeu de poker. Plus précisément, dans l'une des formes les plus populaires de poker, le Texas Hold, 6 joueurs, le Texas Hold. Dans ce jeu, nous utilisons un jeu de cartes régulier avec 52 cartes, et le jeu suit la structure suivante:

La préflop: Tous les joueurs reçoivent 2 cartes (cartes de trou) que seules elles connaissent elles-mêmes la valeur de.
Le flop: 3 cartes sont dessinées et posées face vers le haut pour que tous les joueurs puissent les voir.
Le virage: Une autre carte est dessinée et posée face vers le haut.
La rivière: Une dernière carte de 5e est dessinée et posée face vers le haut.

Les joueurs peuvent utiliser les cartes sur la table et les deux cartes à la main pour assembler une main de poker à 5 cartes. Pour chaque tour du jeu, les joueurs en plaçant à tour de rôle, et le jeu peut se terminer à l'un des rondes si un joueur ne parie que personne d'autre n'est prêt à appeler.

Bien que raisonnablement simple à apprendre, il suffit de connaître la hiérarchie des différentes mains de poker, ce jeu s'est avéré très difficile à résoudre avec l'IA, malgré les efforts continus pendant plusieurs décennies.

Il existe plusieurs facteurs contribuant à la difficulté de résoudre le poker. Premièrement, nous avons le problème des informations cachées, car vous ne savez pas quelles cartes les autres joueurs possèdent. Deuxièmement, nous avons une configuration multijoueur avec de nombreux joueurs, chaque joueur supplémentaire augmentant le nombre d'interactions et de stratégies possibles de façon exponentielle. Troisièmement, nous avons les règles de paris sans limite, qui permettent une structure de paris complexe où un joueur peut soudainement décider de parier toute sa pile. Quatrièmement, nous avons une énorme complexité d'arbres de jeu en raison des combinaisons de cartes de trous, de cartes communautaires et de séquences de paris. De plus, nous avons également une complexité en raison de la nature stochastique des cartes, du potentiel de bluff et de la modélisation de l'adversaire!

Ce n'est qu'en 2019 que quelques chercheurs, Noam Brown et Tuomas Sandholm, ont finalement craqué le code. Dans un article publié dans Science, ils décrivent un roman de poker AI - Pluribus - qui a réussi à battre les meilleurs joueurs du monde dans le Texas Hold'em. Les mains du poker, et les deux expériences ont clairement montré la domination de Pluribus.

Dans la première expérience, Pluribus a joué contre 5 adversaires humains, atteignant un taux de victoire moyen de 48 MBB / jeu, avec un écart-type de 25 MBB / jeu. (MBB / jeu représente Milli Big Blind par match, combien de gros stores est gagné par 1000 matchs joués.) 48 MBB / Game est considéré comme un taux de victoire très élevé, en particulier parmi les joueurs de poker d'élite, et implique que Pluribus est plus fort que le adversaires humains.

Dans la deuxième expérience, les chercheurs ont eu 5 versions de Pluribus Play contre 1 humain. Ils ont mis en place l'expérience de sorte que 2 humains différents joueraient chacun 5000 mains contre les 5 machines. Pluribus a fini par battre les humains en moyenne de 32 MBB / jeu avec une erreur standard de 15 MBB / jeu, montrant à nouveau sa supériorité stratégique.

La domination de Pluribus est assez incroyable, surtout compte tenu de toutes les complexités que les chercheurs ont dû surmonter. Brown et Sandholm ont trouvé plusieurs stratégies intelligentes qui ont aidé Pluribus à devenir surhumain et à calculer beaucoup plus efficace que les meilleurs AIS de poker précédents. Certaines de leurs techniques incluent:

L'utilisation de deux algorithmes différents pour évaluer les mouvements. Ils utiliseraient d'abord un soi-disant "stratégie de plan du plan" qui a été créé en faisant jouer le programme contre lui-même en utilisant une méthode appelée minimisation de regret contrefactuel de Monte Carlo. Cette stratégie de plan du plan serait utilisée au premier cycle de paris, mais dans les rondes de paris ultérieures, Pluribus mène une recherche en temps réel pour trouver une meilleure stratégie plus granulaire.
Pour que son algorithme de recherche en temps réel soit plus efficace sur le plan informatique, ils utiliseraient une recherche limitée de département et évalueraient 4 différentes stratégies possibles que les adversaires pourraient choisir de jouer. Premièrement, ils évalueraient chaque stratégie pour 2 déplacements. En outre, ils n'évalueraient que quatre stratégies différentes pour les adversaires, y compris la stratégie du plan d'origine, une stratégie de plan du plan, une stratégie de plan du plan, une stratégie de plan du plan biaisé vers les appels et une stratégie finale du plan du plan du plan biaisé vers l'élévation.
Ils ont également utilisé diverses techniques d'abstraction pour réduire le nombre d'états de jeu possibles. Par exemple, parce qu'un 9 droit de tête est fondamentalement similaire à un 8 high consécutif, ceux-ci peuvent être visualisés de la même manière.
Pluribus discrétiserait l'espace de paris continu dans un ensemble limité de seaux, ce qui facilite la considération et l'évaluation de diverses tailles de paris.
De plus, Pluribus équilibre également sa stratégie de manière à ce que pour une main donnée, il joue, il considérerait également d'autres mains possibles qu'elle pourrait avoir dans cette situation et évaluer comment il jouerait ces mains, afin que le jeu final être équilibré et donc plus difficile à contrer.

Il y a pas mal d'observations intéressantes à tirer de Pluribus, mais peut-être le plus intéressant est qu'il ne varie pas son jeu contre différents adversaires, mais a plutôt développé une stratégie robuste qui est efficace contre une grande variété de joueurs. Étant donné que beaucoup de joueurs de poker pensent qu'ils doivent ajuster leur jeu à diverses situations et à des gens, Pluribus nous montre que ce n'est pas nécessaire et probablement pas optimal, étant donné comment il a battu tous les humains contre lesquels il a joué.

Dans notre courte incursion dans la théorie des jeux, nous avons noté que si vous jouez à la stratégie NE dans des jeux à somme nulle à deux joueurs, vous êtes assuré de ne pas perdre dans l'attente. Cependant, pour un jeu multijoueur comme le poker à 6 joueurs, il n'y a pas une telle garantie. Noam Brown spécule que c'est peut-être la nature contradictoire d'un jeu comme le poker qui le rend toujours adapté pour essayer de l'aborder avec une stratégie NE. Inversement, dans un jeu comme le risque où les joueurs peuvent coopérer davantage, la poursuite d'une stratégie NE n'est pas garantie pour fonctionner, car, si vous jouez à un jeu de risques avec 6 personnes, vous ne pouvez rien faire si vos 5 adversaires décident de vous embrasser sur vous et vous tuer.

Évaluation de la tendance de l'AI stratégique

Résumant l'histoire de l'IA stratégique dans les jeux, nous voyons une tendance claire émerger. Les jeux se rapprochent lentement mais sûrement des situations stratégiques du monde réel dans lesquelles les humains se retrouvent au quotidien.

Tout d'abord, nous passons d'un paramètre à deux joueurs à un paramètre multijoueur. Cela peut être vu du succès initial dans les jeux à deux joueurs à des jeux multijoueurs comme le poker à 6 joueurs. Deuxièmement, nous constatons une augmentation de la maîtrise des jeux avec des informations cachées. Troisièmement, nous constatons également une augmentation de la maîtrise des jeux avec des éléments plus stochastiques.

Les informations cachées, les paramètres multijoueurs et les événements stochastiques sont la norme plutôt que l'exception des interactions stratégiques entre les humains, donc la maîtrise de ces complexités est essentielle pour réaliser une IA stratégique surhumaine plus générale qui peut naviguer dans le monde réel.

Modèles de langue importants et AI stratégique

J'ai récemment organisé une expérience où je laisse les LLMS jouer le risque de jeu les uns contre les autres. Mon objectif avec l'expérience était d'évaluer la façon dont les LLM pouvaient fonctionner dans un cadre stratégique, plus de moins de la boîte. Cependant, beaucoup d'incitations détaillées ont été données aux agents pour fournir le bon contexte, et peut-être pas surprise, la performance LLM était plutôt médiocre.

Vous pouvez trouver un article sur l'expérience ici:

Exploration des capacités stratégiques des LLM dans un jeu de jeux de risque

Résumant certaines des principales conclusions de l'expérience, la génération actuelle de LLMS lutte avec des concepts stratégiques de base comme la fortification et la reconnaissance des mouvements gagnants. Ils ne parviennent pas non plus à éliminer d'autres joueurs alors qu'il aurait été stratégiquement bénéfique pour eux de le faire.

L'expérience ci-dessus indique que même si nous avons constaté une amélioration rapide des LLM, ils n'ont toujours pas la sophistication du raisonnement stratégique. Compte tenu de leurs données de formation très générales et de la façon dont ils ont été construits, cela ne devrait pas être une surprise.

Alors, comment s'intègrent-ils dans la discussion sur l'IA stratégique? Pour comprendre cela, nous devons comprendre ce que les LLMs excellent vraiment. La caractéristique la plus prometteuse des LLM est peut-être leur capacité à digérer et à générer de grandes quantités de texte. Et maintenant avec les modèles multimodaux, la vidéo et l'audio aussi. En d'autres termes, les LLM sont idéales pour interagir avec le monde réel, à la fois dans les contextes humains et autres. Récemment, une équipe d'IA chez Meta a pu combiner les capacités de langue générale d'un modèle de langue avec les idées stratégiques d'un moteur de stratégie.

Étude de cas: Cicéron et diplomatie

Le jeu de la diplomatie est un jeu de stratégie de 2 à 7 joueurs, que Meta décrit comme un mélange entre le risque, le poker et l'émission de télévision Survivor. Les joueurs commencent par une carte de l'Europe ca. 1900, et l'objectif est de prendre le contrôle de la majorité des centres d'approvisionnement. Plus précisément, un joueur vise à contrôler 18 des 34 centres d'approvisionnement pour remporter la victoire. Ce faisant, un joueur domine effectivement la carte, représentant l'ascendant de son pays sur l'Europe au cours de la période précédant la Première Guerre mondiale.

Ce qui distingue la diplomatie de la plupart des autres jeux dont nous avons discuté jusqu'à présent, c'est sa dépendance à l'égard des négociations entre les joueurs. C’est une forme de jeu beaucoup plus coopérative que par exemple le poker. Chaque joueur utilise un langage naturel pour communiquer avec les autres joueurs avant chaque tour, et il prévoit de s'allier les uns avec les autres. Lorsque les préparatifs sont terminés, tous les joueurs révèlent leurs plans en même temps et que le virage est exécuté. Ce type de jeu ressemble évidemment à la diplomatie réelle et aux négociations réelles plus proches que la plupart des autres jeux de société, mais en raison de la composante en langage naturel, il a été très difficile pour l'IA de maîtriser.

Cela a changé en 2022, lorsque l'équipe AI de Meta a développé Cicéron. En utilisant les dernières progrès de la modélisation des langues, combinée à un module stratégique, Cicero était un moteur de jeu qui a pu réaliser plus que "doubler le score moyen des joueurs humains et classé dans les 10% des participants qui ont joué plus d'un jeu . "⁶ Comme la méta le décrit, leur modèle est capable de produire un dialogue fondé sur la stratégie et de générer un dialogue SAVEAU-STRATEGY.

Différences entre Cicéron et d'autres modèles d'IA stratégiques

Il existe quelques différences clés entre la diplomatie et certains des autres jeux où nous avons eu des progrès stratégiques d'IA récents. Le plus particulièrement est la nature coopérative du jeu - par rapport à la nature contradictoire des autres jeux - et le format de langage naturel ouvert qu'il utilise. Je dirais que ces différences font que le jeu est plus comme une véritable interaction humaine, mais elle apporte également des restrictions sur la façon dont les recherches pourraient former les algorithmes qui alimentent Cicero.

Contrairement à Pluribus et Alphazero, Cicero n'est pas principalement formé par l'apprentissage de l'auto-play et du renforcement. Au lieu de cela, l'équipe Meta a utilisé un ensemble de données avec plus de 125 000 jeux et 40 000 000 messages pour aider à former l'algorithme. Ils pensaient que, compte tenu des aspects de négociation, de persuasion et de renforcement de la confiance du jeu, ils pourraient voir un comportement étrange s'ils laissent l'IA négocier avec lui-même par l'auto-play, et qu'il pourrait ne pas saisir l'essence de l'interaction humaine. Citant leur article de recherche:

"… Nous avons constaté qu'un algorithme auto-play qui a réalisé des performances surhumaines dans les versions 2P0 du jeu a mal fonctionné dans des jeux avec plusieurs joueurs humains en raison de l'apprentissage d'une politique incompatible avec les normes et les attentes des alliés humains potentiels. "

Cependant, l'apprentissage par renforcement a été utilisé pour former une partie du moteur de stratégie, en particulier il a été utilisé pour former la fonction de valeur de Cicéron - dont il a besoin pour prédire l'utilité de ses actions. Les chercheurs ont utilisé une version modifiée du clonage comportemental, PIKL, qui cherche à maximiser l'utilité attendue d'une action et en même temps minimiser la divergence du comportement humain. tout en restant à proximité des actions humaines.

Les fonctionnalités ci-dessus de la diplomatie mettent en évidence certains problèmes importants liés à la création d'une IA stratégique qui peut fonctionner dans un cadre humain réel, et doit être pris en considération lorsque nous évaluons comment l'IA stratégique évoluera pour aller de l'avant.

L'avenir de l'AI stratégique

La prévision de l'avenir est toujours difficile, cependant, une approche peut être d'utiliser les tendances actuelles et de extrapoler dans les scénarios futurs. Ci-dessous, nous étudions quelques sujets qui se rapportent étroitement à notre discussion précédente et évaluons comment ils peuvent influencer l'avenir de l'IA stratégique.

Moteurs de stratégie symbolique générale par rapport aux modules spécialisés

Si nous examinons jusqu'à présent la trajectoire des moteurs stratégiques d'IA, une chose qui nous frappe est la spécialisation de chaque moteur de jeu. Même si les architectures peuvent être similaires - comme avec Alphazero apprenant à jouer à plusieurs jeux différents - l'IA joue toujours des millions de jeux avec lui-même pour chaque jeu spécifique. Pour les échecs, Alphazero a joué 44 millions de matchs et pour aller 130 millions de matchs! ⁷ Une question naturelle à poser est de savoir si nous devrions essayer de construire des moteurs de stratégie plus généraux ou de continuer à nous concentrer sur des modules spécialisés pour des tâches spécifiques?

Un moteur de stratégie générale viserait à comprendre et à appliquer des principes stratégiques généraux dans différentes situations. Peut-être qu'en créant des jeux qui capturent de nombreux aspects de l'interaction stratégique humaine, l'IA pourrait apprendre par le jeu contre lui-même et développer des stratégies qui s'appliquent aux scénarios du monde réel. Cette approche pourrait aider l'IA à généraliser son apprentissage, ce qui le rend utile dans divers contextes.

D'un autre côté, les modules spécialisés sont des systèmes d'IA conçus pour des scénarios ou des tâches particuliers. Nous pourrions imaginer que nous pourrions créer une IA stratégique générale en combinant plusieurs agents spécialisés. Les agents de l'IA pourraient être formés pour exceller dans chaque domaine spécifique, offrant une expertise approfondie là où il est le plus nécessaire. Bien que cette méthode puisse limiter la capacité de l'IA à généraliser, elle assure des performances élevées dans des domaines spécifiques, ce qui peut conduire à des applications pratiques plus rapidement.

Compte tenu des problèmes liés à l'utilisation de l'IA pour la play-play dans des contextes coopératifs - comme nous l'avons observé avec la diplomatie - et la tendance actuelle qui semble favoriser des modules spécialisés pour différentes situations stratégiques, il semble probable que pour un avenir proche, nous aurons spécialisé modules stratégiques pour différents contextes. Cependant, on pourrait également envisager un système mixte où nous avons utilisé des moteurs de stratégie générale pour fournir des informations sur des sujets plus larges, tandis que les modules spécialisés gèrent des défis complexes et spécifiques. Cet équilibre pourrait permettre aux systèmes d'IA d'appliquer des informations stratégiques générales tout en s'adaptant aux détails de situations particulières.

LLMS combler l'écart entre les modules stratégiques et les applications du monde réel

Les modèles de grandes langues ont changé la façon dont l'IA interagit avec le langage humain, offrant un moyen puissant de connecter les modules d'IA stratégiques avec les cas d'utilisation du monde réel. Les LLM sont excellentes pour comprendre et générer du texte humain, ce qui les rend idéales en tant qu'intermédiaire qui peuvent traduire les situations du monde réel en données structurées que les moteurs de stratégie peuvent traiter. Comme le montre le Cicéron de Meta, la combinaison des LLM avec un raisonnement stratégique a permis à l'IA de comprendre la communication humaine, de négocier et de planifier des actions dans des environnements collaboratifs.

Compte tenu de la tendance actuelle vers des modèles plus multimodaux, les LLM sont également de plus en plus capables de traduire non seulement du texte, mais de tout contexte réel dans une syntaxe lisible par machine. Cela rend les modèles encore plus utiles en tant qu'intermédiaires.

Si nous nous appuyons sur les idées développées pour Cicéron, nous pourrions également envisager des modèles linguistiques différents pour des tâches spécifiques - comme la communication diplomatique - peut-être en réglant fin les modèles sur la correspondance diplomatique historique, puis en formation de moteurs de stratégie séparés pour apparaître avec des actions optimales.

Collaboration humaine-AI: le modèle Centaur

L'avenir de l'IA stratégique ne concerne pas seulement les machines qui prennent la prise de décision; Pour une période de transition, il s'agit également d'humains et de l'IA qui travaillent efficacement ensemble. Ce partenariat est souvent appelé «modèle Centaur», combinant l'intuition humaine avec la puissance informatique de l'IA. Dans ce modèle, les humains apportent la créativité, le jugement éthique et la flexibilité, tandis que les systèmes d'IA offrent un traitement puissant des données et une application cohérente des principes stratégiques.

Les exemples du monde réel de ce modèle comprennent des domaines où les équipes humaines surpassent, les humains ou les machines travaillant seuls. Dans les échecs, par exemple, Garry Kasparov a favorisé l'idée de faire équipe avec l'IA, combinant des informations stratégiques humaines avec les calculs précis de l'IA. Le modèle Centaur semblait bien fonctionner dans les échecs jusqu'à ce que les programmes commencent à devenir vraiment bons. À ce stade, la contribution humaine ne valait rien et était dans le pire des cas préjudiciables.

Cependant, dans d'autres domaines qui sont plus ouverts et du monde réel que les échecs, le modèle Centaur est probablement un bon pari à l'avenir. Considérez simplement comment la collaboration humaine avec les LLM modernes a le potentiel d'améliorer considérablement la productivité.

Cette approche collaborative améliore la prise de décision en combinant un jugement humain avec l'analyse de l'IA, conduisant peut-être à des résultats plus informés et équilibrés. Il permet une adaptation rapide aux situations nouvelles et inattendues, car les humains peuvent ajuster les stratégies en temps réel avec le support d'IA.

Applications du monde réel au-delà des jeux

Les jeux ont été un excellent terrain d'essai pour développer une IA stratégique, mais l'impact réel vient de l'application de ces progrès aux défis du monde réel. Ci-dessous, nous mettons en évidence quelques exemples.

Un domaine qui a connu un développement énorme au cours des dernières années est les voitures autonomes et comment ils utilisent l'IA stratégique pour naviguer en toute sécurité. Ils doivent prédire et répondre aux actions d'autres moteurs, piétons et cyclistes. Par exemple, un véhicule autonome doit anticiper si un piéton est sur le point de traverser la rue ou si un autre conducteur est sur le point de changer de voie inattendue.

juste cette année, Waymo - une entreprise qui développe des véhicules autonomes et des services de covoiturage - a commencé à utiliser des taxis entièrement autonomes dans trois villes américaines: Phoenix, Arizona, et Los Angeles et San Francisco en Californie. Dans les années à venir, nous pouvons probablement nous attendre à voir une augmentation massive des véhicules entièrement autonomes en raison des améliorations de l'IA stratégique.

Sur les marchés financiers, les systèmes de trading axés sur l'IA analysent d'énormes quantités de données pour prendre des décisions d'investissement. Ces systèmes considèrent les actions probables des autres acteurs du marché, tels que les commerçants et les institutions, pour anticiper les mouvements du marché. Ils utilisent un raisonnement stratégique pour exécuter des transactions qui maximisent les rendements tout en minimisant les risques, souvent dans des environnements très volatils.

Les systèmes d'IA optimisent également les chaînes d'approvisionnement en considérant les actions des fournisseurs, des concurrents et des clients. Ils peuvent ajuster stratégiquement les calendriers de production, les niveaux d'inventaire et la logistique en fonction de la demande prévue et du comportement des concurrents. Par exemple, si un concurrent devrait lancer un nouveau produit, l'IA peut recommander d'augmenter les niveaux de stock pour répondre aux augmentations potentielles de la demande.

L'IA stratégique est également utilisée pour gérer efficacement la distribution d'énergie. Les réseaux intelligents utilisent l'IA pour prédire les modèles de consommation et ajuster l'alimentation en conséquence. Ils considèrent comment les consommateurs peuvent changer leur utilisation en réponse aux signaux de tarification ou aux facteurs environnementaux. L'IA alloue stratégiquement les ressources pour équilibrer la charge, prévenir les pannes et intégrer les sources d'énergie renouvelables.

Les exemples ci-dessus montrent clairement comment l'IA stratégique est intégrée dans diverses industries et domaines. En considérant les actions des autres, ces systèmes d'IA prennent des décisions éclairées qui optimisent les résultats, améliorent l'efficacité et fournissent souvent un avantage concurrentiel. Alors que l'IA stratégique continue de s'améliorer, ces systèmes le feront, et nous verrons probablement leur émergence dans de nombreux autres domaines également.

Conclusion

L'IA stratégique a parcouru un long chemin depuis la victoire de Deep Blue sur Garry Kasparov. De la maîtrise des jeux de société complexes à des négociations de type humain, les systèmes d'IA présentent de plus en plus des capacités de raisonnement stratégique.

Dans cet article, nous avons étudié les concepts fondamentaux de l'IA stratégique, soulignant l'importance de la théorie des jeux et comment certains des concepts du domaine peuvent être appliqués à l'IA stratégique. Nous avons également examiné comment les systèmes d'IA spécialisés ont réalisé des performances surhumaines dans des jeux spécifiques en nous concentrant sur des domaines étroits et une auto-play étendue. Cela soulève la question de savoir si l'avenir de l'IA stratégique réside dans le développement de moteurs de stratégie symbolique généraux capables d'une application plus large ou de poursuivre avec des modules spécialisés adaptés à des tâches spécifiques.

Comme nous l'avons vu avec Cicéron, les modèles linguistiques auront également probablement un avenir dans l'espace de l'IA stratégique. Les nouveaux modèles de fournisseurs comme OpenAI, anthropic et meta facilitent que jamais ces outils dans des agents autonomes qui peuvent les utiliser pour traduire le monde réel en données structurées que les systèmes d'IA peuvent traiter.

Cependant, le voyage vers une IA stratégique à usage général qui peut naviguer dans les complexités du monde réel ne fait que commencer. Des défis restent dans le développement de systèmes qui peuvent généraliser dans les domaines, s'adapter à des situations imprévues et intégrer des considérations éthiques dans leurs processus décisionnels.

Merci d'avoir lu!

Vous voulez être informé chaque fois que je publie un nouvel article? ➡️ Abonnez-vous à ma newsletter ici ⬅️. C'est gratuit et vous pouvez vous désinscrire à tout moment!

Si vous aimiez lire cet article et que vous souhaitez accéder à plus de contenu de moi, n'hésitez pas à vous connecter avec moi sur LinkedIn à https://www.linkedin.com/in/hans-christian-ekne-1760a259 / Ou visitez ma page Web à https://www.ekneconsulting.com/ pour explorer certains des services que j'offre. N'hésitez pas à contacter par e-mail chez [e-mail protégé]

références

Lex Fridman. (2019, 27 octobre). Garry Kasparov: échecs, bleu profond, ai et Poutine | Lex Fridman Podcast # 46 [fichier vidéo]. YouTube. https://youtu.be/8rva0thwuww?si=1ercnwlan4myok9w
Vinyals, O., Babuschkin, I., Czarnecki, W.M. et al. Grandmaster Niveau dans Starcraft II en utilisant l'apprentissage en renforcement multi-agents. Nature 575, 350–354 (2019). https://doi.org/10.1038/s41586-019-1724-z
https://deepmind.google/discover/blog/alphastar-masterring-the-real-time-trategy-game-starcraft-ii/
Brown et al. (2019, 30 août). Surhumain AI pour le poker multijoueur. Science 365, 885–890, (2019). https://www.science.org/doi/epdf/10.1126/science.aay2400
Lex Fridman. (2022, 6 décembre). Noam Brown: AI vs humains dans le poker et jeux de négociation stratégique | Lex Fridman Podcast # 344 [fichier vidéo]. YouTube. https://youtu.be/2ohh4acljqs?si=ave_esb42gngiprg
Meta Fondamental AI Research Diplomacy Team (Fair) † et al., Le jeu de niveau humain dans le jeu de Diplomacy en combinant des modèles linguistiques avec un raisonnement stratégique. science 378 , 1067 1074 (2022) .doi: 10.1126 / science.ade9097, https://noambrown.github.io/papers/22-science-diplomacy-tr.pdf
David Silver et al. , un algorithme général d'apprentissage par renforcement qui maîtrise les échecs, le shogi et la fin de l'auto-play. science 362 , 1140–1144 (2018) .doi: 10.1126 / science. AAR6404 https://storage.googleapis.com/deepmind-media/deepmind.com/blog/alphazero-shedding-new-light-on-chess-shogi-and-go/alphazero_preprint.pdf

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!