La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Les auteurs de cet article proviennent du laboratoire de l'Arche de Noé de Huawei à Montréal, Kang Jikun, Li Xinze, Chen Xi, Amirreza Kazemi et Chen Boxing. L'intelligence artificielle (IA) a fait de grands progrès au cours de la dernière décennie, notamment dans les domaines du traitement du langage naturel et de la vision par ordinateur. Cependant, comment améliorer les capacités cognitives et les capacités de raisonnement de l’IA reste un défi de taille. Récemment, un article intitulé "MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time" a proposé une méthode d'amélioration des capacités de temps d'inférence basée sur la recherche arborescente MindStar [1], qui est implémentée dans le modèle open source Llama. -13-B et Mistral-7B ont atteint les capacités de raisonnement des grands modèles approximatifs à source fermée GPT-3.5 et Grok-1 sur des problèmes mathématiques.
- Titre de l'article : MindStar : Enhancing Math Reasoning in Pre-trained LLMs at Inference Time
- Adresse de l'article : https://arxiv.org/abs/2405.16265v2
MindStar Effet d'application sur les problèmes mathématiques :
Figure 1 : Précision mathématique de différents grands modèles de langage. LLaMA-2-13B a des performances mathématiques similaires à celles du GPT-3.5 (4 tirs), mais permet d'économiser environ 200 fois plus de ressources de calcul. Introduction Des résultats impressionnants ont été démontrés dans des domaines tels que l'écriture créative et l'écriture créative [5]. Cependant, libérer la capacité des LLM à résoudre des tâches de raisonnement complexes reste un défi. Certaines études récentes [6,7] tentent de résoudre le problème grâce au réglage fin supervisé (SFT). En mélangeant de nouveaux échantillons de données d'inférence avec l'ensemble de données d'origine, les LLM apprennent la distribution sous-jacente de ces échantillons et tentent d'imiter la distribution sous-jacente. Apprenez la logique pour résoudre des tâches de raisonnement invisibles. Bien que cette approche améliore les performances, elle repose fortement sur une formation approfondie et une préparation de données supplémentaire [8,9].
Le rapport Llama-3 [10] met en évidence une observation importante : face à un problème d'inférence difficile, les modèles génèrent parfois des trajectoires d'inférence correctes. Cela suggère que le modèle sait comment produire la bonne réponse, mais qu’il a du mal à la sélectionner. Sur la base de ces résultats, nous avons posé une question simple : pouvons-nous améliorer les capacités de raisonnement des LLM en les aidant à choisir le bon résultat ? Pour explorer cela, nous avons mené une expérience en utilisant différents modèles de récompense pour la sélection des résultats des LLM. Les résultats expérimentaux montrent que la sélection par étapes surpasse considérablement les méthodes CoT traditionnelles. -modèle de récompense supervisé, PRM), M* navigue efficacement dans l'espace de l'arbre d'inférence et identifie les chemins approximativement optimaux. En combinant les idées de Beam Search (BS) et de Levin Tree Search (LevinTS), l'efficacité de la recherche est encore améliorée et le chemin de raisonnement optimal est trouvé dans une complexité informatique limitée. 2.1 Modèle de récompense supervisé par processus Le modèle de récompense supervisé par processus (PRM) est conçu pour évaluer les étapes intermédiaires de la génération d'un modèle de langage étendu (LLM) afin d'aider à sélectionner le chemin d'inférence correct. Cette approche s'appuie sur le succès du PRM dans d'autres applications. Plus précisément, PRM prend le chemin de raisonnement actuel et la prochaine étape potentielle comme entrée, et renvoie une valeur de récompense . PRM évalue les nouvelles étapes en considérant l'ensemble de la trajectoire de raisonnement actuelle, en encourageant la cohérence et la fidélité au cheminement global. Une valeur de récompense élevée indique que la nouvelle étape ) est probablement correcte pour un chemin de raisonnement donné , ce qui rend le chemin d'expansion intéressant une exploration plus approfondie. À l’inverse, une valeur de récompense faible indique que la nouvelle étape peut être incorrecte, ce qui signifie que la solution qui suit ce chemin peut également être incorrecte. L'algorithme M* se compose de deux étapes principales, itérant jusqu'à ce que la bonne solution soit trouvée :
1 Expansion du chemin d'inférence : à chaque itération, le LLM sous-jacent génère l'étape suivante du chemin d'inférence actuel. . 2. Évaluation et sélection : utilisez PRM pour évaluer les étapes générées et sélectionnez le chemin de raisonnement pour la prochaine itération en fonction de ces évaluations. 2.2 Expansion du chemin d'inférenceAprès avoir sélectionné le chemin d'inférence à étendre, nous avons conçu un modèle d'invite (exemple 3.1) pour collecter les prochaines étapes du LLM. Comme le montre l'exemple, LLM traite la question d'origine comme {question} et le chemin de raisonnement actuel comme {réponse}. Notez que lors de la première itération de l'algorithme, le nœud sélectionné est le nœud racine qui contient uniquement la question, donc {answer} est vide. Pour un chemin d'inférence , LLM génère N étapes intermédiaires et les ajoute en tant qu'enfants du nœud actuel. Dans l'étape suivante de l'algorithme, ces nœuds enfants nouvellement générés sont évalués et un nouveau nœud est sélectionné pour une expansion ultérieure. Nous avons également réalisé qu'une autre façon de générer des étapes consiste à affiner le LLM à l'aide de marqueurs d'étape. Cependant, cela peut réduire la capacité d'inférence du LLM et, plus important encore, cela va à l'encontre de l'objectif de cet article : améliorer la capacité d'inférence du LLM sans modifier les pondérations. 2.3 Sélection du chemin d'inférence Après avoir développé l'arbre d'inférence, nous utilisons un modèle de récompense supervisé procédural (PRM) pré-entraîné pour évaluer chaque étape nouvellement générée. Comme mentionné précédemment, PRM prend un chemin et une étape et renvoie la valeur de récompense correspondante. Après évaluation, nous avons besoin d'un algorithme de recherche arborescente pour sélectionner le prochain nœud à développer. Notre framework ne repose pas sur un algorithme de recherche spécifique, et dans ce travail, nous instancions deux méthodes de recherche « best-first », à savoir Beam Search et Levin Tree Search. 3. Résultats et discussion Une évaluation approfondie des ensembles de données GSM8K et MATH montre que M* améliore considérablement les capacités d'inférence des modèles open source (tels que LLaMA-2) et que ses performances sont comparables. Il est comparable à des modèles à source fermée plus grands (tels que GPT-3.5 et Grok-1), tout en réduisant considérablement la taille du modèle et le coût de calcul. Ces résultats mettent en évidence le potentiel de déplacement des ressources informatiques du réglage fin vers la recherche par temps d'inférence, ouvrant ainsi de nouvelles voies pour de futures recherches sur les techniques efficaces d'amélioration de l'inférence.
Le tableau 1 montre les résultats de comparaison de divers schémas sur les benchmarks d'inférence GSM8K et MATH. Le numéro de chaque entrée indique le pourcentage de problème résolu. La notation SC@32 représente l'auto-cohérence parmi 32 résultats candidats, tandis que n-shot représente les résultats sur quelques exemples de tirs. CoT-SC@16 fait référence à l'auto-cohérence entre 16 résultats candidats de chaîne de pensée (CoT). BS@16 représente la méthode de recherche par faisceau, qui implique 16 résultats candidats à chaque niveau d'étape, tandis que LevinTS@16 détaille la méthode de recherche arborescente de Levin utilisant le même nombre de résultats candidats. Il convient de noter que le dernier résultat pour GPT-4 sur l'ensemble de données MATH est GPT-4-turbo-0409, sur lequel nous soulignons particulièrement car il représente la meilleure performance de la famille GPT-4.
Figure 3 Nous étudions comment les performances M* évoluent à mesure que le nombre de candidats à l'échelon change. Nous avons sélectionné Llama-2-13B comme modèle de base et la recherche par faisceau (BS) comme algorithme de recherche, respectivement.
Figure 4 Lois de mise à l'échelle des familles de modèles Llama-2 et Llama-3 sur l'ensemble de données MATH. Tous les résultats proviennent de leurs sources originales. Nous utilisons les outils Scipy et des fonctions logarithmiques pour calculer les courbes ajustées.
Tableau 2 Nombre moyen de jetons produits par différentes méthodes lors de la réponse aux questionsCet article présente MindStar (M*), un nouveau cadre de raisonnement basé sur la recherche pour améliorer les capacités d'inférence. de grands modèles de langage pré-entraînés. En traitant la tâche d'inférence comme un problème de recherche et en tirant parti d'un modèle de récompense de supervision de processus, M* navigue efficacement dans l'espace de l'arbre d'inférence, identifiant les chemins presque optimaux. La combinaison des idées de recherche par faisceau et de recherche par arbre de Levin améliore encore l'efficacité de la recherche et garantit que le meilleur chemin de raisonnement peut être trouvé dans une complexité informatique limitée. De nombreux résultats expérimentaux montrent que M* améliore considérablement les capacités d'inférence des modèles open source et que ses performances sont comparables à celles de modèles fermés plus grands, tout en réduisant considérablement la taille du modèle et les coûts de calcul. Ces résultats de recherche montrent que le passage des ressources informatiques du réglage fin à la recherche par temps d'inférence présente un grand potentiel, ouvrant de nouvelles voies pour la recherche future sur les technologies efficaces d'amélioration de l'inférence. [1] Nisan Stiennon, Long Ouyang, Jeffrey Wu, Daniel Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei et Paul F Christiano Apprendre à résumer. avec retour humain. Advances in Neural Information Processing Systems, 33 : 3008–3021, 2020.[2] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini. Agarwal, Katarina Slama, Alex Ray, et al. Formation de modèles linguistiques pour suivre des instructions avec des commentaires humains. Avancées dans les systèmes de traitement de l'information neuronale, 35 : 27730-27744, 2022. [3] Ziyang Luo, Can Xu. , Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin et Daxin Jiang : Autonomiser des modèles de langage volumineux avec la préimpression arXiv arXiv :2306.08568, 2023. . [4] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Évaluation de grands modèles de langage formés sur le code. prépublication arXiv :2107.03374, 2021.[5] Carlos Gómez-Rodríguez et Paul Williams. Une confédération de modèles : une évaluation complète des llms sur l'écriture créative arXiv arXiv :2310.08433, 2023. . [6] Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T Kwok, Zhenguo Li, Adrian Weller et Weiyang Metamath : démarrez vos propres questions mathématiques pour les grands modèles de langage arXiv. préimpression arXiv : 2309.12284, 2023. [7] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, YK Li, Y Wu et Daya Guo : Repousser les limites de. raisonnement mathématique dans les modèles de langage ouvert. préimpression arXiv arXiv:2402.03300, 2024.[8] Keiran Paster, Marco Dos Santos, Zhangir Azerbayev et Jimmy Ba Openwebmath : un ensemble de données ouvert de textes Web mathématiques de haute qualité. . Préimpression arXiv arXiv :2310.06786, 2023.[9] Peiyi Wang, Lei Li, Zhihong Shao, RX Xu, Damai Dai, Yifei Li, Deli Chen, Y Wu et Zhifang Math-berger : Vérifiez et renforcez les llms étape par étape sans annotations humaines CoRR, abs/2312.08935, 2023.[10] Présentation de Meta Llama 3 : le llm le plus performant disponible à ce jour, avril 2024. URL https://ai.meta.com/blog/meta-llama-3/ Consulté : 2024-04-30.Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!