Au cours des dernières années, des progrès significatifs ont été réalisés dans la recherche et l'amélioration des capacités de raisonnement des modèles de gros langues, avec un objectif fort sur l'amélioration de leur maîtrise de la résolution
Problèmes arithmétiques et mathématiques.
Un modèle avec un bon raisonnement arithmétique et mathématique peut aider à:
Cet article explore comment les progrès du raisonnement mathématique sont à l'origine des innovations dans des modèles d'IA comme Qwen2.5-Math et ses applications dans l'apprentissage personnalisé, la résolution de problèmes et la conception du curriculum.
La série Qwen2.5-Math est le dernier ajout à la série QWEN d'Alibaba Cloud de modèles de grande langue spécifiques aux Math. Il suit la version antérieure de Qwen2-Math, une série de modèles de langage mathématique spécialisés basés sur les LLM Qwen2. Ces modèles démontrent des capacités mathématiques supérieures, dépassant les deux alternatives open source et même certains modèles de source fermée comme GPT-4O.
Cette série démontre des améliorations de performances significatives sur la série QWEN2-Math sur les références mathématiques chinoises et anglaises. Bien que cette série applique la chaîne de pensées (COT) pour résoudre uniquement les problèmes mathématiques spécifiques à l'anglais, la série QWEN2.5-Math élargit ses capacités en incorporant le raisonnement COT et outil (TIR), pour résoudre efficacement les problèmes mathématiques en chinois et en anglais.
La comparaison entre Qwen2.5-Math et Qwen2-Math met en évidence les progrès du raisonnement mathématique et des capacités de résolution de problèmes obtenus dans la dernière itération des modèles de langage spécifiques aux mathématiques d'Alibaba Cloud.
Propriété | Qwen2-Math | Qwen2.5-Math |
---|---|---|
Taille de données pré-formation | Tokens 700B (de Qwen Math Corpus v1) | Plus de 1t jetons (de Qwen Math Corpus v2) |
Langues prises en charge | Anglais | Anglais et chinois |
Approche | Chaîne de pensées (COT) | Chaîne de pensée (COT), raisonnement intégré à l'outil (TIR) |
Score de référence (GSM8K, mathématiques et MMLU-STEM) | 89.1, 60,5, 79.1 | 90.8, 66.8, 82,8 |
Variantes du modèle | Qwen2-Math-1.5b / 7b / 72b | Qwen2.5-Math-1.5b / 7b / 72b |
La série Qwen2.5-Math est formée à l'aide du QWEN MATH CORPUS V2, comprenant plus de 1 billion de jetons de données mathématiques de haute qualité en anglais et en chinois. Cet ensemble de données comprend des données mathématiques synthétiques générées à l'aide du modèle QWEN2-Math-72B-Istruct et des données chinoises mathématiques agrégées provenant de contenu Web, de livres et de référentiels de code à travers plusieurs cycles de rappel.
L'ensemble de données de la chaîne de pensées (COT) pour QWEN2.5-Math est une collection complète de problèmes mathématiques visant à améliorer les capacités de raisonnement du modèle. Il comprend:
Pour relever les défis de calcul et algorithmiques auxquels sont confrontés l'incitation au COT - telles que la résolution d'équations quadratiques ou les valeurs propres informatiques - l'ensemble de données de raisonnement intégré à l'outil (TIR) a été introduit. Cet ensemble de données améliore la compétence du modèle dans la manipulation symbolique et les calculs précis en lui permettant d'utiliser un interprète Python pour le raisonnement de tâches. Il comprend:
Étant donné que le modèle QWEN2.5-Math est la version améliorée du modèle QWEN2-Math, sa formation est donc dérivée de QWEN2-Math comme suit:
L'amélioration des performances du modèle est essentielle pour fournir des résultats plus rapides et plus précis, garantissant l'efficacité et la fiabilité des applications.
Les modèles de base Qwen2.5-Math-1.5b / 7b / 72b ont réalisé des améliorations significatives des repères mathématiques anglais (GSM8K, mathématiques et MMLU-STEM) et des repères mathématiques chinoises (CMATH, Gaokao Math Cloze, et Gaokao Math QA) par rapport à Qwen2-Math-1.5b / 7b / 72b.
Par exemple, les modèles Qwen2.5-Math-1.5b / 7b / 72b montrent une amélioration significative de 5,4, 5,0, 6,3 sur les mathématiques et une amélioration des scores de 3,4, 12,2, 19,8 sur Gaokao Math QA.
Le modèle QWEN2.5-Math-72B-Istruct a surpassé les deux modèles open source et les meilleurs modèles de source fermée, tels que GPT-4O et Gemini spécialisés par mathématiques 1,5 Pro.
Le modèle QWEN2.5-Math-72B-Istruct dépasse son prédécesseur (le modèle QWEN2-Math-72B-Istruct) en moyenne de 4,4 points en anglais et 6,1 points en chinois. Cette performance marque sa position de premier modèle mathématique open source disponible aujourd'hui.
Sur les références extrêmement difficiles telles que AIME 2024 et AMC23, des modèles comme Claude3 Opus, GPT-4 Turbo et Gemini 1.5 Pro résolvent seulement 1 ou 2 problèmes sur 30. En revanche, Qwen2.5-Math-72B-Istruct démontre des performances remarquables, résolvant 9 problèmes en mode COT de décodage gourmand et 12 problèmes en mode TIR. De plus, avec l'aide du modèle de récompense (RM), QWEN2.5-Math-7B-Istruct réalise 21 problèmes résolus impressionnants, présentant ses capacités de résolution mathématiques de problèmes supérieures.
Voyons la démo Qwen2.5-Math en utilisant l'espace HuggingFace ici.
Cet espace fournit une interface utilisateur basée sur le Web pour saisir des problèmes mathématiques ou arithmétiques dans le format d'image ou de texte pour tester les capacités du modèle.
Pour prendre en charge les multi-modalités, cet espace utilise QWEN2-VL pour OCR et QWEN2.5-Math pour le raisonnement mathématique.
Qwen-VL (QWEN Barge Vision Language Model) est le modèle de langage de vision multimodal qui prend en charge les images, le texte comme entrées. Il aide naturellement l'anglais et le chinois à effectuer diverses tâches de génération d'image à texte comme le sous-titrage de l'image, le réponses visuelles, le raisonnement visuel, la reconnaissance de texte, etc.
La série Qwen-VL contient de nombreux modèles tels que Qwen-VL, Qwen-VL-Chat, Qwen-Vl-Plus, Qwen-Vl-Max
etc. Qwen-vl-Max est le modèle de langage visuel le plus capable de QWEN pour offrir des performances optimales sur une gamme encore plus large de tâches complexes.
Le système utilise le modèle QWEN-VL-MAX-0809 pour comprendre, traiter et extraire des informations textuelles des images d'entrée. La fonction process_image () reçoit d'abord l'image d'entrée et extrait le contenu lié aux mathématiques, assurant une transcription précise de toutes les formules en latex. Le système applique ensuite l'invite standard suivante pour extraire le contenu textuel lié aux mathématiques de l'image.
L'invite instruit: «Décrivez le contenu lié aux mathématiques dans cette image, assurant une transcription précise de toutes les formules en latex. Ne décrivez pas les détails non mathématiques. »
Importer un système d'exploitation OS.System ('PIP INSTALLATION DASHSCOPE -U') Importer Tempfile à partir du chemin d'importation Pathlib Importer des secrets importer dashscope à partir de Dashscope Import MultimodalConversation, génération à partir de l'image d'importation PIL Your_api_token = os.getenv ('your_api_token') dashscope.api_key = your_api_token Math_Messages = [] def process_image (image, devrait-converter = false): Global Math_Messages math_messages = [] # réinitialiser lorsque téléchargez l'image uplowed_file_dir = os.environ.get ("gradio_temp_dir") ou str ( Path (tempfile.getTempdir ()) / "Gradio" ) OS.Makedirs (Uploaded_file_dir, exist_ok = true) name = f "tmp {secrets.token_hex (20)}. jpg" filename = os.path.join (uploaded_file_dir, nom) Si devrait convertir: new_img = image.new ('rgb', size = (image.width, image.height), color = (255, 255, 255)) new_img.paste (image, (0, 0), masque = image) image = new_img image.save (nom de fichier) messages = [{ «rôle»: «système», 'Content': [{'texte': 'Vous êtes un assistant utile.'}] }, { «rôle»: «utilisateur», 'contenu': [ {'image': f'file: // {nom de fichier} '}, {'texte': 'Veuillez décrire le contenu lié aux mathématiques dans cette image, en veillant à ce que toutes les formules de latex soient correctement transcrites. Les détails non mathématiques n'ont pas besoin d'être décrits. '} ]] }] réponse = multimodalconversation.call (modèle = 'qwen-vl-max-0809', messages = messages) OS.Remove (nom de fichier) return réponse.output.choices [0] ["Message"] ["Contenu"] # Importer CSV
Cette étape extrait la description de l'image, qui est ensuite transmise au modèle QWEN2.5 avec la question de l'utilisateur pour générer la réponse. Le modèle QWEN2.5-Math-72B-Istruct effectue le raisonnement mathématique dans ce processus.
def get_math_response (image_description, user_question): Global Math_Messages Sinon Math_Messages: Math_Messages.Apend ({'Role': 'System', 'Content': 'Vous êtes un assistant mathématique utile.'}) Math_Messages = Math_Messages [: 1] Si Image_Description n'est pas nul: contenu = f'image Description: {image_description} \ n \ n ' autre: contenu = '' Query = F "{Content} Question utilisateur: {user_question}" Math_Messages.Apend ({'Role': 'User', 'Content': Query}) réponse = génération.Call ( Model = "Qwen2.5-Math-72B-Istruct", messages = math_messages, result_format = 'message', Stream = vrai ) réponse = aucun pour le res en réponse: Si res.output n'est pas: continuer réponse = resp.output.choices [0] .Message.Content Rendre la réponse.replace ("\\", "\\\\") print (f'Query: {query} \ nanswer: {réponse} ') Si la réponse n'est aucune: math_messages.pop () autre: math_messages.append ({'rôle': 'assistant', 'contenu': réponse})
Ayant connu les modèles utilisés dans cet espace, voyons quelques exemples pour
Évaluer la capacité du modèle pour résoudre des problèmes mathématiques ou arithmétiques.
Une image d'entrée contenant l'instruction du problème suivant -
Le modèle trouve les valeurs de x As 5 et Y comme 2. Il fournit également étape par étape
Raisonnement du langage naturel tout en trouvant les valeurs de x et y.
Une image d'entrée contenant l'instruction du problème suivant -
Le modèle découvre la valeur de la dernière expression comme 50.
Une image d'entrée contenant l'instruction du problème suivant -
Le modèle découvre la valeur de l'expression ci-dessus comme 5.
Dans cet article, nous avons exploré Qwen2.5-Math - une série de modèles mathématiques avec des capacités de raisonnement robustes. Nous avons examiné ses composants, ses données de formation, son architecture et ses performances sur divers repères standard. De plus, nous avons examiné la démo, en le testant avec une gamme d'exemples modérés à complexes.
A. Qwen2.5-Math est une version améliorée de QWEN2-Math, offrant des performances améliorées, une meilleure précision dans la résolution de problèmes mathématiques complexes et des techniques de formation améliorées.
Q2. Quel modèle fonctionne mieux pour les tâches mathématiques complexes, QWEN2.5-Math ou Qwen2-Math?A. Qwen2.5-Math surpasse généralement QWEN2-Math sur des tâches complexes en raison de sa formation avancée et de ses capacités raffinées dans le raisonnement mathématique.
Q3. Comment Qwen2.5-Math et Qwen2-Math gèrent-ils le raisonnement mathématique?A. Les deux modèles sont conçus pour le raisonnement mathématique, mais Qwen2.5 utilise des algorithmes plus sophistiqués et des données de formation pour résoudre plus efficacement des problèmes difficiles.
Q4. Quelle est la signification des données de formation dans QWEN2.5-MATH VS QWEN2-Math?A. Qwen2.5-Math bénéficie d'un ensemble de données plus large et plus diversifié, ce qui améliore sa capacité à généraliser et à résoudre des problèmes mathématiques complexes plus précisément que Qwen2-Math.
Q5. Y a-t-il des différences dans la vitesse de traitement entre Qwen2.5-Math et Qwen2-Math?A. Qwen2.5 optimise le traitement plus rapide et fournit des réponses plus rapides par rapport à QWEN2-MATH tout en maintenant une grande précision.
Les médias présentés dans cet article ne sont pas détenus par l'analytique vidhya et sont utilisés à la discrétion de l'auteur.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!