Gagnant des alliés et comprenant le cœur des gens, le dernier agent Meta est un maître négociateur-IA-php.cn

Table des matières

Générez des conversations naturelles et utiles

Diplomatie » faire progresser le bac à sable de l'interaction homme-IA" >Laissons « Diplomatie » faire progresser le bac à sable de l'interaction homme-IA

Orientations futures

Maison

Périphériques technologiques

Gagnant des alliés et comprenant le cœur des gens, le dernier agent Meta est un maître négociateur

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 11:25 PM

ai 智能体

Le jeu vidéo est depuis longtemps un terrain d'essai pour les progrès de l'IA, depuis la victoire de Deep Blue sur le grand maître d'échecs Garry Kasparov, jusqu'à la maîtrise d'AlphaGo de Go Beyond Humans, en passant par Pluribus battant les meilleurs joueurs de poker. Mais un agent vraiment utile et omnipotent ne peut pas simplement jouer à un jeu de société et déplacer des pièces d’échecs. On ne peut s'empêcher de se demander : pouvons-nous créer un agent plus efficace et plus flexible, capable d'utiliser le langage pour négocier, persuader et travailler avec les gens afin d'atteindre des objectifs stratégiques comme les humains ?

Dans l'histoire du jeu vidéo, il existe un Jeu de table classique Diplomacy Lorsque de nombreuses personnes verront le jeu pour la première fois, elles seront choquées par son plateau de style carte. Considérez-le comme un jeu de guerre complexe. En fait, ce n'est pas le cas. Il s'agit d'un jeu qui nécessite de mobiliser le langage pour gagner des alliés. Cela implique une prise de décision et une négociation entre les joueurs. La clé pour gagner le jeu réside dans l'interaction entre les gens. .

Maintenant, Meta a lancé un défi à ce jeu. L'agent intelligent qu'ils ont construit, CICERO, est devenu la première IA à atteindre le niveau humain en diplomatie. CICERO l'a démontré sur la version en ligne de webDiplomacy.net, où CICERO a obtenu en moyenne un score plus de deux fois supérieur à celui des joueurs humains et s'est classé parmi les 10 % des meilleurs participants ayant joué à plus d'une partie.

Gagnant des alliés et comprenant le cœur des gens, le dernier agent Meta est un maître négociateur

Adresse papier : https://www.science.org/doi/10.1126/science.ade9097
Adresse de la page d'accueil : https://ai.facebook.com/research/ cicero/diplomacy/

Pendant des décennies, la diplomatie a été considérée comme un défi insurmontable dans le domaine de l'IA, car le jeu exige que les joueurs comprennent les motivations et les perspectives des autres, élaborent des plans complexes, ajustent leurs stratégies, et sur ce point Sur cette base, le langage naturel est utilisé pour conclure des accords avec les autres, persuader les autres de former des partenariats et des alliances, etc. Celles-ci restent difficiles pour les agents, et CICERO reste très efficace dans l'utilisation du langage naturel pour négocier avec les acteurs de la diplomatie.

Contrairement aux échecs et au Go, la diplomatie est un jeu qui concerne les personnes et non les pièces. Si un agent ne peut pas dire si un adversaire bluffe ou sabote réellement, il perdra rapidement la partie. De même, si un agent ne peut pas communiquer comme un humain, faire preuve d'empathie, établir des relations avec les autres et parler du jeu, il ne trouvera pas d'autres joueurs disposés à coopérer avec lui.

Gagnant des alliés et comprenant le cœur des gens, le dernier agent Meta est un maître négociateur

Les recherches de Meta combinent le raisonnement stratégique (par exemple AlphaGo, Pluribus) avec le traitement du langage naturel (par exemple GPT-3, BlenderBot 3, LaMDA, OPT-175B). Par exemple, tard dans le jeu, CICERO en déduit qu'il aura besoin du soutien d'un joueur spécifique, et CICERO élabore alors une stratégie pour gagner les faveurs de cette personne.

Gagnant des alliés et comprenant le cœur des gens, le dernier agent Meta est un maître négociateur

Comment construire CICERO

Le cœur de CICERO est un modèle de dialogue contrôlable et un moteur de raisonnement stratégique. À chaque étape du jeu, CICERO examine le plateau de jeu et son historique de conversations et modélise ce que les autres joueurs pourraient faire. Un plan est ensuite élaboré pour contrôler le modèle de langage, communiquer ses plans aux autres joueurs et suggérer des actions raisonnables aux autres joueurs qui se coordonnent bien avec eux.

Dialogue contrôlable

Pour construire un modèle de dialogue contrôlable, Meta est parti d'un modèle de langage de type BART avec 2,7 milliards de paramètres, pré-entraîné sur du texte provenant d'Internet, ainsi que plus de 40 000 jeux humains. ont été peaufinés sur webDiplomacy.net.

Le processus de mise en œuvre est principalement divisé en les étapes suivantes :

Étape 1 : Sur la base de l'état du conseil d'administration et de la conversation en cours, CICERO donne une prédiction préliminaire de ce que chacun fera.

Gagnant des alliés et comprenant le cœur des gens, le dernier agent Meta est un maître négociateur

Étape 2 : CICERO améliore de manière itérative la prévision initiale, puis utilise la prévision améliorée pour former une intention pour lui-même et ses partenaires.

Gagnant des alliés et comprenant le cœur des gens, le dernier agent Meta est un maître négociateur

Étape 3 : Générez plusieurs messages de candidats en fonction de l'état du conseil d'administration, du dialogue et de l'intention.

Gagnant des alliés et comprenant le cœur des gens, le dernier agent Meta est un maître négociateur

Étape 4 : Filtrez les messages des candidats, maximisez la valeur et assurez la cohérence des intentions entre eux.

Gagnant des alliés et comprenant le cœur des gens, le dernier agent Meta est un maître négociateur

Les chercheurs ont utilisé certains mécanismes de filtrage pour améliorer encore la qualité du dialogue, tels que l'utilisation de classificateurs entraînés pour faire la distinction entre le texte généré par l'homme et celui généré par un modèle afin de garantir que le dialogue est raisonnable et cohérent avec le texte actuel. état du jeu et précédent Le message est cohérent et stratégiquement solide.

Stratégie et planification de sensibilisation conversationnelle

Dans les jeux impliquant la coopération, les agents doivent apprendre à simuler ce que les humains feraient réellement dans la vie réelle, plutôt que de traiter les humains comme des machines et de laisser l'agent les diriger. fait. Meta espère donc que les plans développés par CICERO seront cohérents avec le dialogue avec d'autres acteurs.

Gagnant des alliés et comprenant le cœur des gens, le dernier agent Meta est un maître négociateur

La méthode classique de modélisation humaine est l'apprentissage supervisé, qui utilise des données étiquetées (telles qu'une base de données d'actions de joueurs humains dans des jeux passés) pour former un agent. Cependant, s’appuyer uniquement sur l’apprentissage supervisé pour choisir des actions basées sur des conversations passées aboutit à un agent relativement faible et facile à exploiter. Par exemple, un joueur pourrait dire à l'agent "Je suis content que nous soyons convenus que vous éloigniez vos troupes de Paris!" Puisque des informations similaires n'apparaissent dans les données d'entraînement que lorsqu'un accord est conclu, l'agent peut en fait éloigner ses troupes ! depuis Paris, même si cela constituait clairement une erreur stratégique.

Pour résoudre ce problème, CICERO exécute un algorithme de planification itérative pour équilibrer la cohérence et le caractère raisonnable de la conversation. L'agent prédit d'abord la stratégie de chaque joueur pour le tour en cours en fonction de ses conversations avec les autres joueurs, et prédit également ce que les autres joueurs pensent de la stratégie de l'agent. Il exécutera ensuite un algorithme de planification appelé « piKL » qui améliore de manière itérative ces prédictions en essayant de choisir de nouvelles stratégies avec des valeurs attendues plus élevées compte tenu des stratégies prédites par les autres acteurs, tout en essayant également de rendre les nouvelles prédictions proches des prévisions stratégiques d'origine. . Les chercheurs ont découvert que piKL peut mieux simuler les jeux humains et apporter de meilleures stratégies à l’agent que l’apprentissage purement supervisé.

Gagnant des alliés et comprenant le cœur des gens, le dernier agent Meta est un maître négociateur

Générez des conversations naturelles et utiles

En Diplomatie, la façon dont les joueurs se parlent est encore plus importante que la façon dont ils déplacent leurs pièces. CICERO est capable de communiquer de manière claire et convaincante lors de l’élaboration de stratégies avec d’autres acteurs. Par exemple, dans une démo, CICERO a demandé à un joueur de soutenir immédiatement une certaine partie du plateau, tout en faisant pression sur un autre joueur pour qu'il envisage une alliance plus tard dans la partie.

Gagnant des alliés et comprenant le cœur des gens, le dernier agent Meta est un maître négociateur

Lors de l'échange, CICERO tente d'exécuter sa stratégie en proposant des actions à trois acteurs différents. Lors de la deuxième conversation, l’agent est capable d’expliquer aux autres joueurs pourquoi ils devraient coopérer et comment cela profitera aux deux parties. Dans ce troisième dialogue, le CICERO sollicite des informations et prépare le terrain pour des actions futures.

Inconvénients

Il faut admettre que CICERO produit aussi parfois des dialogues incohérents, allant ainsi à l'encontre de ses objectifs. Dans l'exemple ci-dessous, CICERO joue l'Autriche, mais l'agent demande à l'Italie de déménager à Venise, contredisant son premier message.

Gagnant des alliés et comprenant le cœur des gens, le dernier agent Meta est un maître négociateur

Laissons « Diplomatie » faire progresser le bac à sable de l'interaction homme-IA

Dans un jeu qui implique à la fois coopération et compétition, un système de dialogue axé sur les objectifs a émergé, ce qui est très important pour faire interagir l'IA avec les humains. Cela présente d’importants défis sociaux et techniques en termes d’alignement des intentions et des objectifs. La diplomatie offre un contexte particulièrement intéressant pour étudier ce problème, car jouer à ce jeu nécessite de lutter contre des objectifs contradictoires et de traduire ces objectifs complexes en langage naturel. À titre d'exemple simple, un joueur peut choisir de faire des compromis sur les avantages à court terme pour maintenir une relation avec un allié, car cet allié peut l'aider à se mettre dans une meilleure position au prochain tour.

Bien que Meta ait fait des progrès significatifs dans ce travail, la capacité à combiner de manière robuste des modèles de langage avec des intentions concrètes, ainsi que les défis techniques (et normatifs) liés à la détermination de ces intentions, restent des problèmes importants. En open source le code CICERO, Meta espère que les chercheurs en IA pourront continuer à s'appuyer sur ce travail de manière responsable. L'équipe a déclaré : « En utilisant des modèles de conversation pour la classification zéro-shot, nous avons pris les premières mesures pour détecter et supprimer les informations nuisibles dans ce nouveau domaine. Nous espérons que la « diplomatie » pourra servir de bac à sable sûr pour faire progresser la recherche sur l'interaction homme-IA. . "

Orientations futures

Bien que CICERO ne soit actuellement capable de jouer qu'à des jeux de diplomatie, la technologie derrière cette réalisation est pertinente pour de nombreuses applications du monde réel. Par exemple, les barrières de communication entre les humains et les agents pilotés par l’IA peuvent être atténuées en contrôlant la génération du langage naturel via la planification et le RL.

Par exemple, les assistants IA d’aujourd’hui sont excellents pour répondre à des questions simples comme vous indiquer la météo, mais et s’ils pouvaient entretenir des conversations à long terme dans le but de vous enseigner une nouvelle compétence ?

Imaginez également un jeu vidéo dans lequel les PNJ peuvent planifier et parler comme des humains, comprendre vos motivations et adapter le dialogue en conséquence pour vous aider à mener à bien votre quête de prise d'assaut d'un château.

Ces « rêves » pourraient devenir réalité dans le futur.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Repo: Comment relancer ses coéquipiers

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Comment obtenir des graines géantes

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Combien de temps faut-il pour battre Split Fiction?

3 Il y a quelques semaines By DDD

R.E.P.O. Enregistrer l'emplacement du fichier: où est-il et comment le protéger?

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7338

Tutoriel Java

1627

Tutoriel CakePHP

1352

Tutoriel Laravel

1265

Tutoriel PHP

1210

Afficher plus

Related knowledge

Comment créer dynamiquement un objet via une chaîne et appeler ses méthodes dans Python? Apr 01, 2025 pm 11:18 PM

Dans Python, comment créer dynamiquement un objet via une chaîne et appeler ses méthodes? Il s'agit d'une exigence de programmation courante, surtout si elle doit être configurée ou exécutée ...

Comment utiliser GO ou Rust pour appeler les scripts Python pour réaliser une véritable exécution parallèle? Apr 01, 2025 pm 11:39 PM

Comment utiliser GO ou Rust pour appeler les scripts Python pour réaliser une véritable exécution parallèle? Récemment, j'ai utilisé Python ...

Comment gérer les paramètres de requête de liste séparés par les virgules dans FastAPI? Apr 02, 2025 am 06:51 AM

Fastapi ...

Comment faire fonctionner le réglage des performances de Zookeeper sur Debian Apr 02, 2025 am 07:42 AM

Cet article décrit comment optimiser les performances de Zookeeper sur Debian Systems. Nous fournirons des conseils sur le matériel, le système d'exploitation, la configuration du gardien de zoo et la surveillance. 1. Optimiser la mise à niveau des supports de stockage au niveau du système: le remplacement des disques durs mécaniques traditionnels par des disques à l'état solide SSD améliorera considérablement les performances des E / S et réduira la latence d'accès. Désactiver le partitionnement du swap: en ajustant les paramètres du noyau, réduisez la dépendance des partitions de swap et évitez les pertes de performances causées par des swaps de mémoire et de disque fréquents. Améliorer le descripteur de fichier Limite supérieure: augmenter le nombre de descripteurs de fichiers autorisés à être ouverts en même temps par le système pour éviter les limitations des ressources affectant l'efficacité de traitement de Zookeeper. 2. Configuration de la configuration zoo

Comment faire des paramètres de sécurité Oracle sur Debian Apr 02, 2025 am 07:48 AM

Pour renforcer la sécurité de la base de données Oracle sur le système Debian, il faut de nombreux aspects pour commencer. Les étapes suivantes fournissent un cadre pour la configuration sécurisée: 1. Installation de la base de données Oracle et préparation du système de configuration initiale: Assurez-vous que le système Debian a été mis à jour vers la dernière version, la configuration du réseau est correcte et tous les packages logiciels requis sont installés. Il est recommandé de se référer à des documents officiels ou à des ressources tierces fiables pour l'installation. Utilisateurs et groupes: Créez un groupe d'utilisateurs Oracle dédié (tel que Oinstall, DBA, BackupDBA) et définissez-le pour lui. 2. Restrictions de sécurité Définir les restrictions de ressources: Edit /etc/security/limits.d/30-oracle.conf

La connexion Python Asyncio Telnet est immédiatement déconnectée: comment résoudre le problème de blocage côté serveur? Apr 02, 2025 am 06:30 AM

À propos de Pythonasyncio ...

Comment récupérer Debian Mail Server Apr 02, 2025 am 07:33 AM

Étapes détaillées pour restaurer Debian Mail Server Cet article vous guidera sur la façon de restaurer Debian Mail Server. Avant de commencer, il est important de se souvenir de l'importance de la sauvegarde des données. Étapes de récupération: données de sauvegarde: assurez-vous de sauvegarder toutes les données d'e-mail et fichiers de configuration importants avant d'effectuer des opérations de récupération. Cela garantira que vous avez une version de secours lorsque des problèmes se produisent pendant le processus de récupération. Vérifiez les fichiers journaux: vérifiez les fichiers journaux du serveur de messagerie (tels que /var/log/mail.log) pour des erreurs ou des exceptions. Les fichiers journaux fournissent souvent des indices précieux sur la cause du problème. Service d'arrêt: Arrêtez le service de messagerie pour éviter une nouvelle corruption des données. Utilisez la commande suivante: su

Comment résoudre le problème du contenu de chargement dynamique manquant lors de l'obtention de données de page Web? Apr 01, 2025 pm 11:24 PM

Problèmes et solutions rencontrés lors de l'utilisation de la bibliothèque de requêtes pour faire craquer les données de la page Web. Lorsque vous utilisez la bibliothèque des demandes pour obtenir des données de page Web, vous rencontrez parfois le ...

See all articles