Vérifiez-vous les uns les autres pour que les petits modèles puissent résoudre de gros problèmes.
Comme nous le savons tous, le LLM est puissant, mais sa capacité à effectuer des raisonnements complexes n'est pas assez forte.
Par exemple, sur l'ensemble de données GSM8K, Mistral-7B ne peut atteindre qu'une précision de 36,5 %, même en utilisant des technologies telles que Chain of Thought (CoT). Bien que le réglage fin puisse effectivement améliorer efficacement les capacités d'inférence, la plupart des LLM s'appuient sur des données de réglage fin qui ont été distillées à partir de modèles plus puissants tels que GPT-4, ou peuvent même avoir été synthétisées par ces modèles puissants.
Dans le même temps, les chercheurs développent également activement une méthode auxiliaire mais plus difficile : utiliser un meilleur LLM de l'enseignant pour améliorer la capacité de raisonnement.
Afin d'améliorer la capacité de raisonnement sans un meilleur modèle, un paradigme prometteur consiste à utiliser les connaissances du LLM lui-même. Par exemple, une méthode appelée RAP adopte une solution auto-exploratoire qui améliore de manière itérative les performances d'inférence du LLM grâce à un feedback auto-récompensé. Malheureusement, les recherches montrent que ce paradigme pose deux problèmes fondamentaux.
Premièrement, LLM a souvent du mal à explorer efficacement l'espace des solutions lors de l'inférence. Cette approche auto-exploratoire reste souvent bloquée dans un espace de solutions en raison d’étapes de raisonnement de mauvaise qualité, même après plusieurs tentatives.
Deuxièmement, même si l'auto-exploration trouve des étapes d'inférence de haute qualité, il est difficile pour une petite version d'un grand modèle de langage (SLM) de discerner quelles étapes d'inférence sont de meilleure qualité et de déterminer si la réponse finale est correcte, ce qui rend difficile de guider efficacement l’auto-exploration. La recherche montre que l’auto-exploration guidée basée sur des récompenses régulières de base ne donne pas de meilleurs résultats qu’une estimation aléatoire.
Ce qui est plus gênant, c'est que les petites versions de grands modèles de langage (SLM) sont plus sujettes aux deux problèmes ci-dessus car leurs capacités sont pires. Par exemple, GPT-4 peut améliorer les résultats de sortie grâce à l'auto-optimisation, mais il est difficile pour SLM de le faire et peut même entraîner une diminution de la qualité des résultats de sortie. Cela entravera sérieusement la vulgarisation et l’application des modèles de langage neuronal.
En réponse à ces problèmes, une équipe de recherche de Microsoft Research Asia et de l'Université Harvard a proposé le raisonnement muTuAl Self-play, ou rStar en abrégé. Pour faire simple, cette méthode revient à demander à deux étudiants médiocres de vérifier mutuellement leurs réponses aux copies d'examen et, finalement, d'améliorer leurs scores au point de pouvoir même rivaliser avec les meilleurs universitaires. L'équipe affirme que rStar "augmente les capacités d'inférence de SLM sans avoir besoin d'affiner ou d'améliorer les modèles".
Titre de l'article : Le raisonnement mutuel rend les petits LLM plus forts pour résoudre les problèmes
Adresse de l'article : https://arxiv.org/pdf/2408.06195
Adresse du code : https://github. com/zhentingqi/rStar (À paraître)
Méthode
Afin de résoudre les problèmes ci-dessus, l'approche de rStar consiste à diviser le processus de raisonnement en deux parties : la génération de solutions et la vérification mutuelle, comme le montre la figure 2. .
Pour le premier casse-tête, l'équipe présente une collection d'actions de raisonnement riches de type humain qui explorent en profondeur une variété d'espaces de tâches de raisonnement différents.
Pour le deuxième problème, ils ont conçu une fonction de récompense spécifiquement pour SLM, qui peut évaluer les étapes intermédiaires pour éviter de s'appuyer sur leur auto-évaluation souvent peu fiable.
De plus, l'équipe a également utilisé un autre SLM comme discriminateur pour améliorer le processus MCTS, vérifiant mutuellement l'exactitude de chaque trajectoire avec le discriminateur SLM.
Utilisez MCTS Rollout pour générer vous-même des trajectoires de raisonnement
Une riche collection d'actions de raisonnement de type humain. Le cœur de la génération MCTS réside dans l’espace d’action, qui définit la portée de l’exploration des arbres. La plupart des méthodes basées sur MCTS utilisent un seul type d'action lors de la construction de l'arborescence. Par exemple, l'action dans RAP consiste à poser la sous-question suivante, tandis que l'action dans AlphaMath et MindStar consiste à générer l'étape de raisonnement suivante. Cependant, s’appuyer sur un seul type d’action peut facilement conduire à une mauvaise exploration spatiale.
Pour résoudre ce problème, l’équipe a revu la façon dont les humains raisonnent. Différentes personnes résolvent les problèmes de différentes manières : certaines personnes divisent le problème en sous-problèmes, d'autres résolvent le problème directement et d'autres encore reformulent le problème sous un autre angle. De plus, les gens ajusteront également leurs méthodes en fonction de l'état actuel et choisiront différentes actions en fonction des besoins.
Inspirée par le processus de raisonnement humain, l'équipe a construit un ensemble de données plus riche contenant 5 types d'actions pour maximiser le potentiel du SLM pour résoudre correctement des problèmes de raisonnement complexes.
Les cinq actions ci-dessus définissent un espace d'action très diversifié {A1, A2, A3, A4, A5}.
A chaque étape i, MCTS sélectionne une action a_i depuis cet espace. Cette action a_i est ensuite utilisée pour laisser le LLM générer la prochaine étape d'inférence s_i en fonction de l'état actuel (c'est-à-dire la trajectoire précédemment générée x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1}). Veuillez noter que certaines actions doivent être effectuées dans l'ordre. La figure 3 donne un exemple.
Comme le montre le tableau 1, chaque action joue un rôle important dans l'amélioration de la précision de l'inférence finale.
Fonction de récompense
Un autre élément clé de MCTS est la fonction de récompense, qui évalue la valeur de chaque action et fournit une indication pour l'expansion de l'arbre. Pour SLM, l’équipe a conçu une fonction de récompense simple mais efficace. Leur approche, inspirée d'AlphaGo, note chaque nœud intermédiaire en fonction de sa contribution à la bonne réponse finale. De cette façon, les actions qui aboutissent fréquemment à des réponses correctes recevront des récompenses plus élevées et auront plus de chances d'être choisies dans les futures extensions de l'arborescence MCTS.
Ici, la valeur de récompense du nœud s générée après l'exécution de l'action a est définie comme Q (s, a). Initialement, tous les nœuds inexplorés se voient attribuer Q (s_i, a_i) = 0, réalisant ainsi une expansion aléatoire de l'arbre. Lorsque vous atteignez le premier nœud final n_d, un score de récompense Q (s_d, a_d) est calculé selon qu'il obtient la bonne réponse.
Ensuite, ce score est rétropropagé à chaque nœud intermédiaire le long de la trajectoire t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d. Plus précisément, pour chaque s_i, sa valeur Q est mise à jour comme suit : Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d). Pour calculer Q(s_d, a_d) pour un nœud final, la valeur de récompense utilisée ici est la probabilité (confiance) d'un vote majoritaire cohérent.
Utilisez le déploiement MCTS pour générer des solutions
Ce qui suit décrit comment MCTS génère des trajectoires de raisonnement des candidats. À partir du nœud racine initial s_0, diverses recherches, notamment la sélection, l'expansion, la simulation et la rétropropagation, sont effectuées. Plus précisément, la simulation utilise la stratégie de déploiement par défaut. Pour obtenir une estimation plus précise des récompenses, l'équipe effectue plusieurs déploiements. Pour équilibrer l’exploration et l’exploitation, ils utilisent la célèbre UCT (limite supérieure de confiance de l’arbre) pour sélectionner chaque nœud. La forme mathématique de ce processus de sélection est la suivante :
où N (s, a) est le nombre de fois que le nœud s a été visité lors de l'itération précédente, et N_parent (s) représente le nombre de visites au nœud parent de s. Q (s, a) est la valeur de récompense estimée, qui est mise à jour lors de la rétropropagation. c’est une constante qui équilibre l’exploration et l’exploitation.
Une fois que la recherche atteint un nœud final (qui peut être un état terminal, ou elle peut atteindre une profondeur d'arbre maximale prédéfinie d), une trajectoire de la racine au nœud final peut être obtenue. Toutes les trajectoires obtenues par itération de déploiement sont collectées en tant que solutions candidates. Ensuite, ils doivent être vérifiés.
Sélection de trajectoires d'inférence par cohérence
Sur la base de l'ensemble des trajectoires collectées, l'équipe propose d'utiliser la cohérence d'inférence pour sélectionner les réponses.
Obtenir la cohérence des inférences grâce au discriminateur SLM
Comme le montre la figure 2, en plus du SLM cible, l'équipe a également introduit un discriminateur SLM, dont le rôle est de fournir un retour d'information externe non supervisé sur la trajectoire de chaque candidat.
Plus précisément, pour t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d, masquez l'étape d'inférence en commençant à une étape i échantillonnée au hasard. Ensuite, la trajectoire d'inférence précédente t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} est fournie au discriminateur SLM comme une invite pour le laisser terminer les étapes restantes. Puisque les étapes d'inférence i-1 précédentes sont utilisées comme indices, la difficulté est réduite et le discriminateur SLM est plus susceptible de donner la bonne réponse.
La figure 4 compare si la réponse de l'achèvement du discriminateur SLM correspond à la trajectoire d'origine t. Si les deux sont cohérents, t est considéré comme une trajectoire vérifiée qui peut être finalement sélectionnée.
La trajectoire finale est sélectionnée par le SLM cible. Après avoir appliqué la cohérence d'inférence sur toutes les trajectoires candidates, revenez au SLM cible et laissez-le sélectionner la trajectoire finale parmi les trajectoires vérifiées. Pour calculer le score final de chaque trajectoire, l'équipe a multiplié sa récompense par le score de confiance de son nœud final obtenu via Rollout. La trajectoire avec le score final le plus élevé est sélectionnée comme solution.
Expériences
Configuration expérimentale
rStar convient à une variété de tâches LLM et d'inférence. L'équipe a évalué 5 SLM : Phi3-mini, LLaMA2-7B, Mistral-7B, LLaMA3-8B, LLaMA3-8B-Instruct.
Il y a 5 tâches de raisonnement testées, dont 4 tâches mathématiques (GSM8K, GSM-Hard, MATH, SVAMP) et 1 tâche de bon sens (StrategyQA).
Veuillez visiter l'article original pour les détails expérimentaux.
Résultats clés
L'équipe a d'abord évalué l'efficacité de rStar sur un benchmark d'inférence général. Le tableau 2 compare la précision de rStar et d'autres méthodes de pointe sur différents ensembles de données SLM et d'inférence. Pour démontrer l'efficacité du nouveau générateur, l'équipe fournit également la précision de rStar (générateur @maj) sans discriminateur et en utilisant uniquement le vote majoritaire pour vérifier la réponse.
L'équipe a souligné trois résultats clés :
1. Les SLM alimentés par rStar sont plus capables de résoudre les problèmes. Par exemple, sur l'ensemble de données GSM8K, la précision de LLaMA2-7B utilisant CoT sur quelques échantillons n'est que de 12,51 %. Mais avec l'aide de rStar, sa précision a augmenté jusqu'à 63,91 %, ce qui est proche de la précision obtenue par réglage fin, comme le montre la figure 1. De même, Mistral utilisant rStar a même surpassé de 4,18 % la version affinée de MetaMath. Une telle amélioration montre que le SLM lui-même possède déjà de fortes capacités de raisonnement, mais qu’il a besoin de conseils pour générer et sélectionner les bonnes réponses.
2.rStar peut améliorer de manière stable la précision d'inférence de divers SLM évalués sur différentes tâches jusqu'au meilleur niveau actuel. En comparaison, d’autres méthodes de comparaison ne parviennent pas à obtenir systématiquement de bonnes performances sur les quatre critères. Par exemple, bien que SC (auto-cohérence) soit bon dans trois tâches mathématiques, il n'est pas efficace pour résoudre la tâche de raisonnement logique de StrategyQA.
3. Même sans le discriminateur nouvellement proposé pour vérifier les trajectoires d'inférence, le générateur MCTS nouvellement proposé fonctionne toujours bien pour améliorer la précision de l'inférence du SLM. Par exemple, sur l'ensemble de données GSM8K, la précision de rStar (générateur @maj) est de 2,88 % à 16,39 % supérieure à celle de RAP, de 10,60 % à 38,37 % supérieure à celle de ToT et de 1,69 % à 7,34 % supérieure à celle de SC.
Résultats sur un ensemble de données mathématiques difficiles
L'équipe a également évalué rStar sur un ensemble de données mathématiques plus difficiles. Pour cela, ils ont choisi les ensembles de données GSM-Hard et MATH. Suivant la convention d'études similaires, ils ont utilisé MATH-500, un sous-ensemble de problèmes représentatifs de l'ensemble de données MATH. Ceci est fait pour améliorer la vitesse d’évaluation. Comme le montrent les tableaux 2 et 3, rStar est capable d'améliorer considérablement la précision d'inférence de SLM sur ces ensembles de données mathématiques difficiles.
Étude sur l'ablation
Efficacité des différents déploiements
rStar a utilisé la stratégie de déploiement pour effectuer l'expansion de l'arborescence MCTS. Un plus grand nombre de déploiements génère davantage de trajectoires de solutions candidates, mais augmente également le coût de l'inférence. La figure 5 compare la précision de SC, RAP et rStar en utilisant différents déploiements sur GSM8K.
Deux observations clés sont faites ici :
Efficacité du générateur MCTS
L'équipe a comparé l'efficacité du générateur MCTS avec trois autres générateurs. Comme le montre le tableau 4, le générateur MCTS nouvellement proposé surpasse les autres générateurs dans tous les domaines. De plus, l'efficacité des fonctions de récompense adaptées à la SLM est démontrée, car l'auto-évaluation réduit la précision des nouveaux générateurs.
Efficacité du discriminateur
L'équipe a mis en place deux expériences d'évaluation.
La première expérimentation consiste à comparer la méthode discriminante avec les méthodes de vote majoritaire et d'autovalidation. Les résultats sont présentés dans le tableau 5 (à gauche), et on constate que les avantages de la méthode de discrimination sont très significatifs.
La deuxième expérience consiste à étudier l'impact de différents modèles discriminateurs. Les résultats sont présentés dans le tableau 5 (à droite). On peut voir que le choix de différents modèles de discriminateur n'affecte généralement pas l'effet de la méthode de cohérence d'inférence pour vérifier la réponse. Il est à noter que même en utilisant le puissant GPT-4 comme discriminateur, les performances ne s'améliorent que légèrement (de 91,13 % à 92,57 %). Cela montre que la méthode de cohérence inférentielle peut utiliser efficacement la SLM pour vérifier les réponses.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!