Pour que les grands modèles de langage (LLM) utilisent pleinement leurs capacités, une conception efficace des invites est essentielle. C'est pourquoi le domaine émergent de l'ingénierie des invites a même émergé.
Parmi diverses solutions de conception rapide, Chain of Thinking (CoT) a attiré l'attention de nombreux chercheurs et utilisateurs grâce à ses puissantes capacités de raisonnement. Basées sur son CoT-SC amélioré et son arbre de réflexion (ToT), il a également gagné beaucoup. d'attention.
Récemment, une équipe de recherche de l'ETH Zurich, de Cledar et de l'Université technologique de Varsovie a proposé une autre idée : Maps of Mind (GoT). La capacité de penser à partir de chaînes, d'arbres et de graphiques et de construire un processus de raisonnement pour le LLM a été continuellement améliorée, et les chercheurs l'ont également prouvé par des expériences. Ils ont également publié leur propre implémentation du framework GoT.
Document de recherche : https://arxiv.org/pdf/2308.09687v2.pdf
Mise en œuvre officielle : https://github.com/spcl/graph-of-thoughts
Aperçu du papier
Les grands modèles de langage deviennent la technologie dominante dans le monde de l’intelligence artificielle. Les modèles qui se sont développés rapidement ces dernières années sont principalement basés sur des variantes de Transformer uniquement avec décodeur, telles que GPT, PaLM ou LLaMA.
Lors de la résolution de différentes tâches LLM, la conception technique rapide est une méthode qui peut utiliser efficacement les ressources. En termes simples, une description de la tâche est incluse dans la contribution envoyée au LLM. Si la tâche peut être décrite sous une forme appropriée, LLM peut la résoudre à l'aide de son mécanisme de génération de texte basé sur des jetons autorégressifs. De telles invites peuvent contenir des exemples de tâches avec des réponses (conception d'invites à quelques tirs, également connue sous le nom d'apprentissage contextuel (ICL)), ou elles peuvent ne pas contenir d'exemples de tâches (conception d'invites à tir nul, comme l'ont montré les recherches et les applications de ces dernières années). que, Ce mécanisme peut être utilisé pour résoudre de nombreux types de tâches impliquant les mathématiques, le bon sens ou le raisonnement symbolique.
La chaîne de pensée (CoT) est une méthode de conception d'invites, c'est-à-dire en plus de l'entrée et de la sortie du. tâche, l'invite comporte également des entrées et des sorties. Elle comprend également les étapes intermédiaires de raisonnement (pensée intermédiaire). La recherche montre que CoT peut considérablement améliorer la capacité de LLM, lui permettant de résoudre certains problèmes difficiles sans aucune mise à jour du modèle
Certains. les chercheurs ont également amélioré CoT et ont proposé d'utiliser CoT pour réaliser eux-mêmes la méthode cohérente (CoT-SC) ; cette solution consiste à générer plusieurs CoT puis à sélectionner le meilleur résultat
Récemment, certains chercheurs ont proposé en outre l'arbre de pensée (ToT). ), qui se fait via un arbre. ) pour modéliser le processus de raisonnement LLM. Cela permet au modèle d'utiliser différents chemins de pensée et peut fournir des capacités complètement nouvelles, comme le retour en arrière du processus de raisonnement basé sur de mauvais résultats. Malheureusement, la méthode ToT l'impose. rigueur sur le processus de réflexion. La structure arborescente limitera considérablement la capacité de raisonnement de l'invite. Pour plus de détails, veuillez vous référer à l'article sur ce site Web"Penser, réfléchir, penser sans s'arrêter, Thinking Tree ToT "Military Training" LLM"
ETH. Zurich, Cledar. Cette équipe de recherche de l'Université de technologie de Varsovie estime que si la pensée LLM peut être construite dans une structure graphique arbitraire, elle peut apporter des améliorations significatives aux capacités de l'invite. Ils ont déclaré que cette idée était inspirée par une variété de phénomènes, tels que. comme méthodes de raisonnement humain, structures cérébrales et méthodes d'exécution d'algorithmes Lors de la réflexion, les humains ne se contenteront pas de suivre une chaîne de pensée comme CoT, ni d'essayer plusieurs chemins différents comme ToT, mais en formeront une plus complexe, par exemple, une personne. peut d'abord explorer une chaîne de pensée, puis revenir en arrière et en explorer une autre, puis se rendre compte qu'une idée de la chaîne précédente peut être combinée avec la chaîne actuelle pour apprendre les unes des autres et en obtenir une nouvelle. De la même manière, le cerveau se forme. des réseaux complexes qui présentent des modèles de type graphique, tels que des modèles cycliques. L'exécution de l'algorithme révèle également le modèle du réseau, qui peut souvent être représenté comme un graphe acyclique orienté Les auteurs ont déclaré que si ce graphe correspondant était activé. La transformation est utilisée dans la pensée LLM, elle devrait créer une méthode puissante de conception d'invites, mais cette transformation ne peut pas être naturellement exprimée par CoT ou ToT Ensuite, ils ont observé To : Si le processus de raisonnement de LLM est modélisé sous forme de graphique, alors ces transformations de pensée et bien d’autres peuvent être réalisées naturellement. Sur la base de cette observation, ils ont proposé le GoT/Graph of Thoughts, qui peut être mis en œuvre via le réseau pour améliorer les capacités du LLM. Dans GoT, une pensée LLM est modélisée comme un sommet, et les dépendances entre les sommets sont modélisées comme des arêtes. Grâce à GoT, des idées arbitraires peuvent être agrégées en construisant des sommets avec plus d'une arête d'entrée. Dans l’ensemble, la méthode d’abstraction graphique utilisée par le GoT peut généraliser de manière transparente CoT et ToT à des modèles de pensée plus complexes, et ce processus ne nécessite pas de mise à jour du modèle.Cependant, certains défis de conception doivent être résolus pour réellement implémenter GoT. Par exemple, quelle est la meilleure structure graphique pour différentes tâches ? Quelle est la meilleure approche de la pensée convergente afin de maximiser la précision et de minimiser les coûts ?
Pour répondre à ces questions et bien plus encore, ces chercheurs ont conçu une architecture modulaire pour la mise en œuvre du GoT. Le design présente deux points forts.
Premièrement, il permet d'obtenir un contrôle précis de chaque pensée. Cela donne aux utilisateurs un contrôle total sur les conversations avec LLM et l'utilisation de transformations de pensée avancées, telles que la combinaison des deux pensées les plus prometteuses d'une inférence en cours pour en obtenir une nouvelle.
Deuxièmement, cette architecture est conçue dans un souci d'évolutivité : elle peut être étendue de manière transparente pour de nouvelles transformations de pensée, modes de raisonnement (c'est-à-dire des cartes mentales) et des modèles LLM. Cela permet aux utilisateurs d'utiliser GoT pour prototyper rapidement de nouvelles idées de conception tout en expérimentant différents modèles tels que GPT-3.5, GPT-4 ou Llama-2.
Les chercheurs ont également démontré quelques cas d'utilisation du GoT (tri, comptage de mots clés des résumés, opérations d'ensemble, fusion de documents), et ils ont également détaillé comment les mettre en œuvre à l'aide d'un paradigme basé sur des graphiques. Ils évaluent expérimentalement GoT, démontrant ses avantages par rapport aux autres méthodes de pointe.
Les chercheurs affirment que dans l'ensemble, GoT est particulièrement adapté aux tâches qui peuvent être naturellement décomposées en sous-tâches plus petites, et ces sous-tâches peuvent être résolues séparément puis fusionnées dans une solution finale. À cet égard, GoT est plus performant que les autres solutions. Par exemple, sur la tâche de tri, GoT est meilleur que CoT et ToT d'environ 70 % et 62 % respectivement, tandis que le coût est inférieur de plus de 31 % à ToT.
Le tableau 1 donne une comparaison qualitative entre GoT et d'autres solutions de conception rapide. GoT est la seule solution capable de mettre en œuvre n'importe quelle transformation de pensée basée sur des graphiques (telle que l'agrégation) dans une invite, englobant ainsi toutes les solutions précédentes.
Ils ont également une autre contribution, qui consiste à proposer une nouvelle métrique d'évaluation - le volume d'une pensée, qui peut être utilisée pour évaluer des stratégies de conception rapide. Selon les chercheurs, l’objectif de l’utilisation de cette métrique est de mieux comprendre les différences entre les options de conception rapide.
Pour une pensée v donnée, la capacité de v fait référence au nombre de pensées LLM sur la base desquelles l'utilisateur peut obtenir v en utilisant des bords dirigés. Intuitivement, ce sont toutes les idées du LLM qui devraient contribuer à v.
L'auteur a montré à travers des recherches qu'en intégrant des technologies de transformation de la pensée telles que l'agrégation, le GoT peut rendre la capacité de réflexion considérablement plus grande que d'autres solutions.
GoT Framework
Ce qui suit est une introduction détaillée au GoT Framework. Le diagramme schématique est présenté dans la figure 1, qui fournit également des diagrammes schématiques d'autres stratégies de conception rapide.
Sous forme mathématique, GoT peut être modélisé comme un tuple (G, T, E, R), où G est le processus de raisonnement LLM (c'est-à-dire toutes les pensées LLM et leurs relations dans le contexte) et T est la possibilité des transformations de pensée, E est la fonction d'évaluation utilisée pour obtenir le score de pensée, et R est la fonction de classement utilisée pour sélectionner les pensées les plus pertinentes.
Processus d'inférence
Ici, le processus d'inférence est modélisé comme un graphe orienté G = (V, E), où V est un ensemble de sommets et E ⊆ V × V est un ensemble d'arêtes. G est dirigé, donc les arêtes sont des sous-ensembles de paires de sommets ordonnées E ⊆ V × V . Un sommet contient une solution au problème actuel, qu'il s'agisse du problème initial, intermédiaire ou final. La forme exacte de cette réflexion dépend du cas d'utilisation : il peut s'agir d'un morceau de texte (dans une tâche d'écriture) ou d'une séquence de valeurs (dans une tâche de tri). Le bord orienté (t_1, t_2) représente la manière dont la pensée t_2 est construite en utilisant t_1 comme « entrée directe », c'est-à-dire en demandant explicitement au LLM d'utiliser t_1 pour générer t_2.
Dans certains cas d'utilisation, les nœuds graphiques appartiennent à différentes catégories. Par exemple, dans une tâche d'écriture, certains sommets modélisent le plan d'écriture d'un segment de texte, tandis que d'autres nœuds modélisent le segment de texte lui-même. Dans ce cas, GoT adopte un graphe hétérogène G = (V, E, c) pour modéliser l'inférence LLM, où c mappe les sommets V à leurs classes respectives C (dans le cas ci-dessus, C = {plan, par} ). De cette façon, n’importe quel sommet v peut modéliser différents aspects du raisonnement.
Donc G est associé au processus d'inférence LLM. Pour faciliter ce processus, l'utilisateur peut utiliser Thought Shift sur G. Un exemple de ce type de transformation : fusionner la pensée ayant obtenu le score le plus élevé jusqu'à présent en une nouvelle. Un autre exemple est de boucler une pensée afin de la renforcer. A noter que ces transformations étendent strictement l'ensemble des transformations disponibles dans CoT, CoT-SC ou ToT.
Transformation de la pensée
Grâce à l'utilisation de modèles de raisonnement basés sur des graphiques, le GoT peut réaliser de nouvelles transformations de la pensée. Les chercheurs appellent cela une transformation basée sur les graphiques. Par exemple, dans une tâche d’écriture, plusieurs articles peuvent être combinés en un résumé cohérent. Lors du tri, plusieurs sous-tableaux numériques triés peuvent être combinés dans un tableau trié final. La figure 2 donne un exemple d'agrégation et de génération.
Mathématiquement parlant, chacune de ces transformations peut être modélisée comme T (G, p_θ), où G = (V, E) est le graphique reflétant l'état actuel de l'inférence et p_θ est le LLM utilisé. T modifie G généralement en ajoutant de nouveaux sommets et leurs arêtes entrantes. Alors nous avons G′ = T (G, p_θ) = (V′, E′), où V′ = (V ∪ {V^+}) {V^−} et E′ = (E ∪ {E^+ } ) {E^−}. V^+ et E^+ sont de nouveaux sommets et arêtes injectés dans G. Ils modélisent respectivement une nouvelle pensée et leurs dépendances.
Pour maximiser le pouvoir expressif de GoT, les utilisateurs peuvent également supprimer des pensées en spécifiant les sommets et arêtes correspondants à supprimer (V^− et E^− respectivement). Ici, il est de la responsabilité de l'utilisateur de s'assurer que les ensembles V^+, E^+, V^− et E^− ont des transformations cohérentes (par exemple, l'utilisateur n'essaiera pas de supprimer des sommets inexistants). Cela permet une intégration transparente de solutions rapides, où l'utilisateur peut supprimer les parties non améliorées de l'inférence pour économiser de l'espace dans le contexte. La forme spécifique de
T et la manière dont elle affecte G dépendent de la transformation spécifique. Ce qui suit présentera d'abord en détail les transformations de pensée permises par les graphiques principaux, puis décrira comment GoT inclut les transformations des solutions précédentes. Sauf indication contraire, V^− = E^− = ∅.
Transformation d'agrégation : les utilisateurs peuvent utiliser GoT pour regrouper toutes leurs pensées en de nouvelles pensées afin d'apprendre des forces de chacun. Voici un aperçu de la forme de base qui crée uniquement un nouveau sommet : V^+ = {v^+} et E^+ = {(v_1, v^+), ..., (v_k, v^+)}, où v_1 , ..., v_k sont les k pensées fusionnées. Plus généralement, cela permet l’agrégation de chemins de raisonnement, c’est-à-dire de chaînes de pensées plus longues plutôt que de simples pensées individuelles. À l'aide d'un modèle graphique, une transformation d'agrégation peut être facilement implémentée : en ajoutant des arêtes sortantes des sommets v_1, ..., v_k qui modélisent la dernière pensée de plusieurs chaînes, pour pointer vers une seule pensée v^+ qui combine ces chaînes.
Affinage de la transformation : Une autre transformation de la pensée consiste à affiner la pensée actuelle v en modifiant le contenu : V^+ = {} et E^+ = {(v, v)}. Cette boucle dans le diagramme représente une version itérative de la pensée qui a les mêmes connexions que la pensée originale.
Générer une transformation : Enfin, l'utilisateur peut également générer une ou plusieurs nouvelles pensées basées sur une seule pensée existante. Cette catégorie comprend des étapes de raisonnement similaires à celles de systèmes antérieurs tels que ToT ou CoT-SC. Mathématiquement parlant, il existe
Idées de notation et de classement
Le but de la notation des idées est de comprendre si la solution actuelle est assez bonne. Le score est modélisé comme une fonction générale E (v, G, p_θ), où v est la pensée évaluée. Afin de rendre E aussi général que possible, l'ensemble du processus de raisonnement (G) est également utilisé dans E, puisque dans certains scénarios d'évaluation, les scores peuvent être liés à d'autres réflexions.
GoT peut également être classé. Les chercheurs ont utilisé la fonction R (G, p_θ, h) pour modéliser, où h spécifie le nombre de pensées les mieux classées dans G qui doivent être renvoyées par R. Bien que la forme exacte de R dépende du cas d'utilisation, une approche simple mais efficace la plus couramment utilisée consiste à renvoyer les h pensées avec les scores les plus élevés, c'est-à-dire v_1, ..., v_h = R (G, p_θ, h) .
La forme exacte de E et R dépend du cas d'utilisation.
Architecture et évolutivité du système
GoT se compose d'un ensemble de modules interactifs, voir Figure 3 (partie bleue). Ces modules sont le prompteur (préparer les messages pour LLM), l'analyseur (analyseur, extraire les informations dans les réponses LLM), le module de notation (valider les réponses LLM et noter), le contrôleur (contrôleur, coordonner l'ensemble du processus de raisonnement et décider comment procéder au raisonnement). Le contrôleur contient deux autres composants importants : le graphique des opérations (GoO) et le graphique de l'état de raisonnement (GRS). Un GoO est une structure statique qui spécifie la décomposition du graphe pour une tâche donnée, c'est-à-dire qu'elle spécifie les transformations appliquées à la pensée LLM ainsi que leur ordre et leurs dépendances. Le GRS est une structure dynamique qui maintient l'état du processus d'inférence LLM en cours (l'histoire de sa pensée et de ses états).
Exemples de cas d'utilisation
Les chercheurs décrivent certains cas d'utilisation du GoT, notamment le tri, les opérations d'ensemble, le comptage de mots clés et la fusion de documents. La figure 4 ci-dessous est un exemple de décomposition de graphiques dans le cas d'utilisation de tri du GoT. Nous ne présenterons pas les cas d'utilisation en détail ici, veuillez vous référer au document original pour plus de détails.
Le compromis entre latence et capacité
Le compromis entre la latence (le nombre de sauts pour atteindre une pensée finale donnée dans la carte mentale) et la capacité est également très important, et les chercheurs ont montré que le GoT souffre de ce compromis. Il est également meilleur que la solution de conception rapide précédente. Cet article définit une nouvelle métrique : la capacité de pensée, qui est le nombre de pensées LLM précédentes qui peuvent influencer une pensée t donnée. Mathématiquement, la capacité de pensée t est le nombre de pensées qui ont des chemins entre t et t dans la carte mentale. Les chercheurs ont supposé que le coût de production d’une seule pensée est O (1) et ont fixé le coût total de chaque solution rapide à Θ(n).
La structure des différents programmes est la suivante. CoT-SC se compose de k chaînes indépendantes provenant d’une seule pensée de départ. ToT est un arbre k-ary complet. Dans GoT, un arbre k-ary complet est ajouté à ses nœuds feuilles, avec un arbre k-ary "miroir" - la taille est la même mais les bords sont inversés.
Voir le tableau 2 pour une analyse détaillée. CoT a une plus grande capacité, jusqu’à N, mais il a également un coût de latence élevé, égal à N. CoT-SC réduit la latence d'un facteur k (correspondant à son facteur de branchement), mais en même temps sa capacité est réduite d'un facteur k. La latence de ToT est log_k N, mais la capacité est également faible. GoT est la seule solution capable d'obtenir un log_k N à faible latence et une capacité N élevée. GoT est capable de le faire car il utilise l'agrégation de pensées, ce qui lui permet d'arriver à la pensée finale à partir de toute autre pensée intermédiaire dans la décomposition du graphique.
Évaluation
Les chercheurs ont démontré les avantages du GoT par rapport aux autres solutions à travers des expériences. La comparaison clé se situe entre GoT et ToT, car les performances de ToT sont déjà meilleures que celles des autres solutions. Bien sûr, ils ont quand même fait quelques expériences avec IO, CoT et CoT-SC.
Les figures 5 (tri), 6 (ensemble d'intersection), 7 (comptage de mots clés) et 8 (fusion de documents) montrent les résultats expérimentaux.
Dans l'ensemble, GoT a une meilleure qualité de sortie que ToT sur tous les benchmarks évalués expérimentalement, et atteint également un coût d'inférence inférieur.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!