Modèle open source et fermé « Chaos » : voyons quel agent peut le mieux entrevoir les véritables intentions des êtres humains-IA-php.cn

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Les premiers auteurs de cet article sont Qian Cheng et He Bingxiang, étudiants de premier cycle du département d'informatique de l'université Tsinghua. Tous deux sont membres du THUNLP. Les principaux intérêts de recherche de Qian Cheng sont l'apprentissage par outils et les grands agents pilotés par modèles. Il est sur le point d'étudier pour un doctorat à l'UIUC. Les principaux intérêts de recherche de He Bingxiang sont l'alignement et la sécurité des grands modèles, et il étudiera bientôt pour un doctorat à l'Université Tsinghua. Les auteurs correspondants de cet article sont Cong Xin et Lin Yankai, et le superviseur est le professeur agrégé Liu Zhiyuan.

Aujourd'hui, avec le développement rapide de l'intelligence artificielle, nous explorons constamment l'intelligence des machines, mais nous ignorons souvent la façon dont ces agents intelligents nous comprennent profondément, leurs créateurs. Chaque interaction, chaque mot, chaque action que nous accomplissons dans la vie est rempli d'intention et d'émotion. Mais le véritable défi est le suivant : comment ces intentions implicites sont-elles capturées, analysées et réagies par l'agent ? Les agents intelligents traditionnels répondent rapidement aux commandes explicites, mais ils ne parviennent souvent pas à comprendre les intentions humaines implicites complexes.

Ces dernières années, des modèles de langage tels que GPT et LLaMA ont démontré des capacités étonnantes dans la résolution de tâches complexes. Cependant, bien que les agents qui les composent soient doués pour formuler des stratégies et exécuter des tâches, ils prennent rarement en compte des stratégies d’interaction utilisateur robustes. Les tâches confiées par les utilisateurs sont généralement vagues et courtes, ce qui oblige l'agent non seulement à comprendre nos demandes littérales, mais également à voir à travers nos intentions implicites.

Par conséquent, pour qu'une nouvelle génération d'agents intelligents soit mise en œuvre et utilisée par le public, elle doit être centrée sur l'humain, en se concentrant non seulement sur la précision de l'exécution des tâches, mais également sur la manière d'établir un comportement plus naturel. , relation fluide et riche avec les humains. Style de communication perspicace.

Afin de combler ce manque, une équipe conjointe de l'Université Tsinghua, de l'Université Renmin et de Tencent a récemment proposé un nouveau plan de conception d'interaction d'agent intelligent. Ce travail introduit d'abord Intention-in-Interaction (IN3), un nouveau benchmark qui vise à comprendre les intentions implicites des utilisateurs à travers des interactions explicites avec les utilisateurs.

En utilisant Mistral-7B comme cadre et sur la base de la formation IN3, Mistral-Interact peut évaluer de manière proactive l'ambiguïté des tâches, interroger les intentions des utilisateurs et les affiner en objectifs réalisables avant de lancer l'exécution des tâches de l'agent en aval. Après avoir intégré le modèle dans le framework XAgent, l'article procède à une évaluation complète du système d'agents entièrement avec état.

Les résultats montrent que cette solution présente des performances exceptionnelles dans l'identification des tâches utilisateur ambiguës, la récupération et la synthèse des informations manquantes clés, la définition d'objectifs d'exécution d'agent précis et nécessaires et la réduction de l'utilisation d'outils redondants. Cette méthode innovante comble non seulement le vide dans l'interaction entre les agents intelligents et les utilisateurs, en plaçant véritablement les humains au centre de la conception des agents intelligents, mais signifie également que nous faisons un pas de plus vers l'objectif de concevoir des agents intelligents plus en phase avec avec des intentions humaines.

Modèle open source et fermé « Chaos » : voyons quel agent peut le mieux entrevoir les véritables intentions des êtres humains

Titre de l'article : Tell Me More ! Towards Implicit User Intention Understanding of Language Model Driven Agents
Lien de l'article : https://arxiv.org/abs/2402.09205
Référentiel de code : https ://github.com/HBX-hbx/Mistral-Interact
Modèle open source : https://huggingface.co/hbx/Mistral-Interact
Ensemble de données open source : https://huggingface.co / ensembles de données/hbx/IN3

Modèle open source et fermé « Chaos » : voyons quel agent peut le mieux entrevoir les véritables intentions des êtres humains

^{Comparaison de l'exécution de tâches floues et d'exécution de tâches claires}Les benchmarks actuels des agents supposent souvent qu'une tâche donnée est claire et ne considèrent pas la compréhension de l'intention de l'utilisateur comme un aspect important de l'évaluation. Compte tenu du caractère incomplet des indicateurs d'évaluation, ce travail a développé le benchmark Intention-in-Interaction (IN3), qui vise à évaluer les capacités interactives des agents grâce à un jugement clair sur l'ambiguïté des tâches et à la compréhension de l'intention de l'utilisateur.

Données de référence IN3 processus

Modèle open source et fermé « Chaos » : voyons quel agent peut le mieux entrevoir les véritables intentions des êtres humains Comme le montre la figure ci-dessus, la tâche de départ basée sur l'écriture humaine est l'étape 1, le modèle génère de manière itérative de nouvelles tâches pour améliorer l'ensemble de données tout en échantillonnant à partir de l'ensemble de données comme nouveaux exemples pour le prochain cycle de génération (étape 2). Après cette méthode de génération d'auto-instruction, l'ambiguïté, les détails manquants de chaque tâche, l'importance de chaque détail et les options potentielles sont annotés manuellement (étape 3).

Processus de formation Mistral-Interact

Étant donné que les grands modèles de langage sont au cœur de la conception des agents, ce travail a d'abord mené une étude préliminaire pour évaluer les performances implicites des modèles open source et fermés actuels dans l'interaction processus. Capacité de compréhension de l’intention de la formule.

Plus précisément, l'article sélectionne au hasard dix tâches de l'IN3, les applique pour tester LLaMA-2-7B-Chat, Mistral-7B-Instruct-v0.2 et GPT-4 et indique ces modèlesi ) déterminer l'ambiguïté de la tâche, ii) demander à l'utilisateur les détails manquants lorsque la tâche est ambiguë, iii) résumer la tâche utilisateur détaillée.

Mieux, mais manquant toujours de compréhension du problème de l'intention humaine. En revanche, GPT-4 est le plus proche de l’intention humaine en termes d’ambiguïté des tâches et de détails manquants importants. Dans le même temps, une exploration préliminaire montre également que pour améliorer encore la capacité de l'agent à comprendre les intentions implicites dans l'interaction, une simple ingénierie d'invite ne suffit pas. Il est nécessaire de se former davantage sur la base du modèle open source actuel pour atteindre l'objectif de. Le degré d'application des agents intelligents.

^{en train de construire la conversation enregistre plusieurs stratégies (encadré orange), qui comprennent : la construction d'une chaîne de raisonnement initiale claire, la construction d'une requête avec des options suggérées, la construction de différentes tonalités de réponse de l'utilisateur et la construction d'un résumé clair de la chaîne de raisonnement. Ces stratégies de construction de dialogue stimuleront mieux les capacités d’interrogation et de raisonnement du modèle cible.}

Évaluation complète des capacités d'interaction de l'agent

La capacité de compréhension implicite de l'intention de l'agent peut être évaluée directement via l'interaction de l'utilisateur ou indirectement via l'agent effectuant des tâches en aval. Parmi eux, l'interaction utilisateur se concentre sur la compréhension de l'intention elle-même, tandis que l'exécution des tâches se concentre sur le but ultime de la compréhension de l'intention, qui est d'améliorer la capacité de l'agent à gérer les tâches.

Par conséquent, afin d'évaluer de manière globale la conception de l'agent interactif, l'article divise l'expérience en deux parties : i)

Compréhension des instructions

: évaluer la capacité de compréhension de l'intention de l'agent lors de l'interaction avec l'utilisateur ii)

Exécution des instructions

: Évaluez les performances d'exécution des tâches de l'agent après avoir intégré le modèle d'interaction.

La compréhension des instructions n'implique aucune exécution d'agent en temps réel, c'est pourquoi l'article évalue directement les performances de différents modèles de langage pendant le processus d'interaction pour déterminer leurs capacités d'interaction en tant que module en amont de la conception d'agent. Afficher :

Les instructions comprennent les résultats du test. Parmi elles, la flèche représente plus le score est élevé/plus la capacité est faible, et peut faire en sorte que les instructions comprennent les résultats du test. des résumés clairs et complets basés sur l’intention détaillée de l’utilisateur. Par rapport à d'autres modèles open source, Mistral-Interact peut fournir des options plus raisonnables pour demander des détails manquants dans des tâches floues, la méthode de requête est plus conviviale et ses performances sont comparables à celles de GPT-4.

Modèle open source et fermé « Chaos » : voyons quel agent peut le mieux entrevoir les véritables intentions des êtres humains

En termes d'exécution d'instructions, afin d'évaluer l'efficacité de la compréhension implicite des intentions pour l'exécution des tâches de l'agent, l'article intègre Mistral-Interact en tant que module d'interaction en amont dans le framework XAgent pour les tests. Parmi eux, XAgent peut interagir dans des environnements tels que la recherche réseau, l'exécution de code, la ligne de commande et le système de fichiers.

Résultats des tests d'exécution des instructions (ST signifie sous-tâche, MS signifie jalon)

Les résultats de l'évaluation quantitative montrent que l'intégration de Mistral-Interact permet de : i) éviter de se fixer des objectifs inutiles pendant le processus d'exécution , ii) rendre le processus d'exécution de l'agent plus cohérent avec les intentions détaillées de l'utilisateur, et iii) réduire les appels d'outils inutiles et promouvoir l'efficacité de l'utilisation des outils de l'agent.

Modèle open source et fermé « Chaos » : voyons quel agent peut le mieux entrevoir les véritables intentions des êtres humains

Analyse de cas d'interaction d'agent

En termes de compréhension des commandes, afin de démontrer davantage la robustesse de Mistral-Interact dans différents scénarios de dialogue, l'article propose également trois analyses de cas.

^{Études de cas de Mistral-Inter agir et les utilisateurs dans différents scénarios}

Le cas A montre l'impact des différents tons des utilisateurs et styles de conversation sur Mistral-Interact. L'article révèle que peu importe si la réponse de l'utilisateur était courte ou détaillée, enthousiaste ou froide, ou même contenait des fautes d'orthographe, Mistral-Interact était capable de comprendre avec précision et de fournir une réponse appropriée, prouvant sa robustesse.

Dans le cas B, il a été testé si Mistral-Interact peut continuer à poser des questions et ramener la conversation sur les rails lorsque l'utilisateur fait preuve d'une attitude non coopérative. Les résultats ont montré que même lorsque les utilisateurs évitaient les questions, ils étaient toujours capables de rediriger efficacement la conversation.

Dans le cas C, on peut observer que Mistral-Interact peut intégrer dans le résumé des informations supplémentaires fournies par l'utilisateur, ce qui n'est pas explicitement demandé par le modèle d'interaction. Cela montre que lorsque la requête du modèle ne peut pas couvrir entièrement les détails manquants ou que l'utilisateur a des exigences spécifiques, le modèle est toujours capable de résumer de manière raisonnable et complète toutes les intentions de l'utilisateur, ce qui le rend plus convivial.

Afin d'illustrer plus clairement le rôle de Mistral-Interact en termes d'exécution d'instructions, une étude de cas comparative est présentée dans la figure ci-dessous.

Modèle open source et fermé « Chaos » : voyons quel agent peut le mieux entrevoir les véritables intentions des êtres humains

^{Le texte en rouge clair} peut être trouvé lorsque la cible de l'utilisateur est floue. XAgent ne peut pas définir avec précision les sous-tâches qui reflètent précisément les besoins de l'utilisateur. D'après le texte marqué violet

, on constate que XAgent définit souvent des sous-tâches inutiles. En effet, la tâche de l'utilisateur est trop vague pour être exécutée et l'agent a tendance à fabriquer des détails inutiles, ce qui est incompatible avec la véritable intention de l'utilisateur.

En revanche, des objectifs de tâches clairs permettent à XAgent de formuler des sous-tâches plus spécifiques après une interaction active avec Mistral-Interact. Le texte marqué vert sur la figure démontre cette cohérence. Dans le même temps, le processus d'exécution de l'agent devient plus simple et le nombre d'appels d'outils est réduit. Tous ces éléments reflètent un processus d’exécution d’agent plus efficace.

Conclusion

Nous nous trouvons à un nouveau point de départ, prêts à assister à un nouveau chapitre de collaboration homme-machine, de compréhension mutuelle et d'apprentissage. Les agents intelligents ne seront bientôt plus de froids processeurs d’informations, mais des partenaires empathiques, capables de comprendre en profondeur nos besoins et nos désirs qui ne sont peut-être pas clairement exprimés au départ à travers des expériences interactives délicates. Cette révolution dans la conception d’agents intelligents centrés sur l’humain révélera des possibilités infinies d’interaction, faisant des agents intelligents une aide véritablement indispensable dans nos vies.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!