Début avec Qwen2.5-Math-IA-php.cn

Au cours des dernières années, des progrès significatifs ont été réalisés dans la recherche et l'amélioration des capacités de raisonnement des modèles de gros langues, avec un objectif fort sur l'amélioration de leur maîtrise de la résolution
Problèmes arithmétiques et mathématiques.

Un modèle avec un bon raisonnement arithmétique et mathématique peut aider à:

Apprentissage personnalisé: les tuteurs alimentés par l'IA peuvent s'adapter aux besoins des élèves individuels, les enjoignant plus efficacement des concepts mathématiques complexes.
Assistance à la résolution de problèmes: l'automatisation des explications étape par étape pour la résolution de problèmes améliore l'engagement et la compréhension des étudiants.
Conception du curriculum: création de modules d'apprentissage adaptatifs et progressifs dans des sujets comme l'algèbre et le calcul.

Cet article explore comment les progrès du raisonnement mathématique sont à l'origine des innovations dans des modèles d'IA comme Qwen2.5-Math et ses applications dans l'apprentissage personnalisé, la résolution de problèmes et la conception du curriculum.

Objectifs d'apprentissage

Comprenez et explorez la série Qwen2.5-Math et ses composants.
Découvrez l'architecture du modèle QWEN2.5-Math.
Gagnez une exposition pratique sur QWEN2.5-Math avec des exemples.
Découvrez les performances de Qwen2.5-Math sur divers repères.

Table des matières

Qu'est-ce que Qwen2.5-Math?
Qwen2.5-Math vs Qwen2-Math
Optimisation des données de formation
Formation de modèle efficace
Optimisation des performances du modèle
Démo en cours d'exécution
Conclusion
Questions fréquemment posées

Qu'est-ce que Qwen2.5-Math?

La série Qwen2.5-Math est le dernier ajout à la série QWEN d'Alibaba Cloud de modèles de grande langue spécifiques aux Math. Il suit la version antérieure de Qwen2-Math, une série de modèles de langage mathématique spécialisés basés sur les LLM Qwen2. Ces modèles démontrent des capacités mathématiques supérieures, dépassant les deux alternatives open source et même certains modèles de source fermée comme GPT-4O.

Cette série démontre des améliorations de performances significatives sur la série QWEN2-Math sur les références mathématiques chinoises et anglaises. Bien que cette série applique la chaîne de pensées (COT) pour résoudre uniquement les problèmes mathématiques spécifiques à l'anglais, la série QWEN2.5-Math élargit ses capacités en incorporant le raisonnement COT et outil (TIR), pour résoudre efficacement les problèmes mathématiques en chinois et en anglais.

Qwen2.5-Math vs Qwen2-Math

La comparaison entre Qwen2.5-Math et Qwen2-Math met en évidence les progrès du raisonnement mathématique et des capacités de résolution de problèmes obtenus dans la dernière itération des modèles de langage spécifiques aux mathématiques d'Alibaba Cloud.

Propriété	Qwen2-Math	Qwen2.5-Math
Taille de données pré-formation	Tokens 700B (de Qwen Math Corpus v1)	Plus de 1t jetons (de Qwen Math Corpus v2)
Langues prises en charge	Anglais	Anglais et chinois
Approche	Chaîne de pensées (COT)	Chaîne de pensée (COT), raisonnement intégré à l'outil (TIR)
Score de référence (GSM8K, mathématiques et MMLU-STEM)	89.1, 60,5, 79.1	90.8, 66.8, 82,8
Variantes du modèle	Qwen2-Math-1.5b / 7b / 72b	Qwen2.5-Math-1.5b / 7b / 72b

Optimisation des données de formation

La série Qwen2.5-Math est formée à l'aide du QWEN MATH CORPUS V2, comprenant plus de 1 billion de jetons de données mathématiques de haute qualité en anglais et en chinois. Cet ensemble de données comprend des données mathématiques synthétiques générées à l'aide du modèle QWEN2-Math-72B-Istruct et des données chinoises mathématiques agrégées provenant de contenu Web, de livres et de référentiels de code à travers plusieurs cycles de rappel.

Ensemble de données sur la chaîne de pensées (Cot)

L'ensemble de données de la chaîne de pensées (COT) pour QWEN2.5-Math est une collection complète de problèmes mathématiques visant à améliorer les capacités de raisonnement du modèle. Il comprend:

580k Problèmes mathématiques anglais et 500k, y compris les éléments annotés et synthétisés.
Les données annotées dérivées de sources comme GSM8K, Math et Numinamath.

Ensemble de données de raisonnement intégré à l'outil (TIR)

Pour relever les défis de calcul et algorithmiques auxquels sont confrontés l'incitation au COT - telles que la résolution d'équations quadratiques ou les valeurs propres informatiques - l'ensemble de données de raisonnement intégré à l'outil (TIR) a été introduit. Cet ensemble de données améliore la compétence du modèle dans la manipulation symbolique et les calculs précis en lui permettant d'utiliser un interprète Python pour le raisonnement de tâches. Il comprend:

Problèmes de 190K provenant de repères comme GSM8K, Math, Collegemath et Numinamath.
Problèmes de 205K créés à l'aide de techniques de Mugglemath et Dotamath pour faire évoluer les requêtes dans les ensembles de formation GSM8K et mathématiques.

Formation de modèle efficace

Début avec Qwen2.5-Math

Étant donné que le modèle QWEN2.5-Math est la version améliorée du modèle QWEN2-Math, sa formation est donc dérivée de QWEN2-Math comme suit:

Les modèles Qwen2-Math s'entraînent sur Qwen Math Corpus V1, un ensemble de données de haute qualité qui contient environ 700 milliards de jetons de contenu mathématique.
Les développeurs forment un modèle de récompense spécifique aux mathématiques, QWEN2-Math-RM, dérivé du modèle QWEN2-Math-72B.
Les modèles de base de la série QWEN2.5 servent à l'initialisation des paramètres, à l'amélioration de la compréhension du langage, à la génération de code et aux capacités de raisonnement de texte.
Après avoir entraîné le modèle de base QWEN2.5-Math, les développeurs forment un modèle de récompense spécifique aux mathématiques, Qwen2.5-Math-RM-72B, basé sur QWEN2.5-Math-72b. Ce modèle de récompense évolue les données SFT par échantillonnage de rejet pour le modèle SFT (QWEN2.5-Math-SFT).
Un modèle d'instruct (qwen2.5-math-instruct) est construit à la fin pour polir la qualité des réponses. Ce modèle est créé par une itération supplémentaire à l'aide des modèles QWEN2-Math-Istruct et QWEN2.5-Math-RM-72B. Le processus intègre les données de raisonnement intégré aux outils (TIR) et les données SFT, affinées via l'optimisation des politiques relatives du groupe (GRPO), pour polir davantage les performances du modèle.

Optimisation des performances du modèle

L'amélioration des performances du modèle est essentielle pour fournir des résultats plus rapides et plus précis, garantissant l'efficacité et la fiabilité des applications.

Performance des modèles de base

Les modèles de base Qwen2.5-Math-1.5b / 7b / 72b ont réalisé des améliorations significatives des repères mathématiques anglais (GSM8K, mathématiques et MMLU-STEM) et des repères mathématiques chinoises (CMATH, Gaokao Math Cloze, et Gaokao Math QA) par rapport à Qwen2-Math-1.5b / 7b / 72b.

Début avec Qwen2.5-Math

Par exemple, les modèles Qwen2.5-Math-1.5b / 7b / 72b montrent une amélioration significative de 5,4, 5,0, 6,3 sur les mathématiques et une amélioration des scores de 3,4, 12,2, 19,8 sur Gaokao Math QA.

Performance des modèles réglés par l'instruction

Le modèle QWEN2.5-Math-72B-Istruct a surpassé les deux modèles open source et les meilleurs modèles de source fermée, tels que GPT-4O et Gemini spécialisés par mathématiques 1,5 Pro.

Début avec Qwen2.5-Math

Le modèle QWEN2.5-Math-72B-Istruct dépasse son prédécesseur (le modèle QWEN2-Math-72B-Istruct) en moyenne de 4,4 points en anglais et 6,1 points en chinois. Cette performance marque sa position de premier modèle mathématique open source disponible aujourd'hui.

Sur les références extrêmement difficiles telles que AIME 2024 et AMC23, des modèles comme Claude3 Opus, GPT-4 Turbo et Gemini 1.5 Pro résolvent seulement 1 ou 2 problèmes sur 30. En revanche, Qwen2.5-Math-72B-Istruct démontre des performances remarquables, résolvant 9 problèmes en mode COT de décodage gourmand et 12 problèmes en mode TIR. De plus, avec l'aide du modèle de récompense (RM), QWEN2.5-Math-7B-Istruct réalise 21 problèmes résolus impressionnants, présentant ses capacités de résolution mathématiques de problèmes supérieures.

Début avec Qwen2.5-Math

Démo en cours d'exécution

Voyons la démo Qwen2.5-Math en utilisant l'espace HuggingFace ici.

Cet espace fournit une interface utilisateur basée sur le Web pour saisir des problèmes mathématiques ou arithmétiques dans le format d'image ou de texte pour tester les capacités du modèle.

Pour prendre en charge les multi-modalités, cet espace utilise QWEN2-VL pour OCR et QWEN2.5-Math pour le raisonnement mathématique.

Étape 1: Extraction du contenu lié aux mathématiques à l'aide de Qwen-vl

Qwen-VL (QWEN Barge Vision Language Model) est le modèle de langage de vision multimodal qui prend en charge les images, le texte comme entrées. Il aide naturellement l'anglais et le chinois à effectuer diverses tâches de génération d'image à texte comme le sous-titrage de l'image, le réponses visuelles, le raisonnement visuel, la reconnaissance de texte, etc.

La série Qwen-VL contient de nombreux modèles tels que Qwen-VL, Qwen-VL-Chat, Qwen-Vl-Plus, Qwen-Vl-Max
etc. Qwen-vl-Max est le modèle de langage visuel le plus capable de QWEN pour offrir des performances optimales sur une gamme encore plus large de tâches complexes.

Le système utilise le modèle QWEN-VL-MAX-0809 pour comprendre, traiter et extraire des informations textuelles des images d'entrée. La fonction process_image () reçoit d'abord l'image d'entrée et extrait le contenu lié aux mathématiques, assurant une transcription précise de toutes les formules en latex. Le système applique ensuite l'invite standard suivante pour extraire le contenu textuel lié aux mathématiques de l'image.

L'invite instruit: «Décrivez le contenu lié aux mathématiques dans cette image, assurant une transcription précise de toutes les formules en latex. Ne décrivez pas les détails non mathématiques. »

 Importer un système d'exploitation

OS.System ('PIP INSTALLATION DASHSCOPE -U')
Importer Tempfile
à partir du chemin d'importation Pathlib
Importer des secrets
importer dashscope
à partir de Dashscope Import MultimodalConversation, génération
à partir de l'image d'importation PIL



Your_api_token = os.getenv ('your_api_token')
dashscope.api_key = your_api_token
Math_Messages = []
def process_image (image, devrait-converter = false):

    Global Math_Messages
    math_messages = [] # réinitialiser lorsque téléchargez l'image
    uplowed_file_dir = os.environ.get ("gradio_temp_dir") ou str (
        Path (tempfile.getTempdir ()) / "Gradio"
    )
    OS.Makedirs (Uploaded_file_dir, exist_ok = true)
    

    name = f "tmp {secrets.token_hex (20)}. jpg"
    filename = os.path.join (uploaded_file_dir, nom)

    Si devrait convertir:
        new_img = image.new ('rgb', size = (image.width, image.height), color = (255, 255, 255))
        new_img.paste (image, (0, 0), masque = image)
        image = new_img
    image.save (nom de fichier)
    

    messages = [{
        «rôle»: «système»,
        'Content': [{'texte': 'Vous êtes un assistant utile.'}]
    }, {
        «rôle»: «utilisateur»,
        'contenu': [
            {'image': f'file: // {nom de fichier} '},
            {'texte': 'Veuillez décrire le contenu lié aux mathématiques dans cette image, en veillant à ce que toutes les formules de latex soient correctement transcrites. Les détails non mathématiques n'ont pas besoin d'être décrits. '}
        ]]
    }]
    
    réponse = multimodalconversation.call (modèle = 'qwen-vl-max-0809', messages = messages)
    

    OS.Remove (nom de fichier)
    
    return réponse.output.choices [0] ["Message"] ["Contenu"] # Importer CSV

Copier après la connexion

Étape2: raisonnement mathématique utilisant QWEN2.5-Math

Cette étape extrait la description de l'image, qui est ensuite transmise au modèle QWEN2.5 avec la question de l'utilisateur pour générer la réponse. Le modèle QWEN2.5-Math-72B-Istruct effectue le raisonnement mathématique dans ce processus.

 def get_math_response (image_description, user_question):
    Global Math_Messages
    Sinon Math_Messages:
        Math_Messages.Apend ({'Role': 'System', 'Content': 'Vous êtes un assistant mathématique utile.'})
    Math_Messages = Math_Messages [: 1]
    Si Image_Description n'est pas nul:
        contenu = f'image Description: {image_description} \ n \ n '
    autre:
        contenu = ''
    Query = F "{Content} Question utilisateur: {user_question}"
    Math_Messages.Apend ({'Role': 'User', 'Content': Query})
    réponse = génération.Call (	
        Model = "Qwen2.5-Math-72B-Istruct",
        messages = math_messages,	
        result_format = 'message',
        Stream = vrai
    )
    réponse = aucun
    pour le res en réponse:
        Si res.output n'est pas:
            continuer
        réponse = resp.output.choices [0] .Message.Content
        Rendre la réponse.replace ("\\", "\\\\")
    print (f'Query: {query} \ nanswer: {réponse} ')
    Si la réponse n'est aucune:
        math_messages.pop ()
    autre:
        math_messages.append ({'rôle': 'assistant', 'contenu': réponse})

Copier après la connexion

Ayant connu les modèles utilisés dans cet espace, voyons quelques exemples pour
Évaluer la capacité du modèle pour résoudre des problèmes mathématiques ou arithmétiques.

Exemple1

Une image d'entrée contenant l'instruction du problème suivant -

Début avec Qwen2.5-Math

Le modèle trouve les valeurs de x As 5 et Y comme 2. Il fournit également étape par étape
Raisonnement du langage naturel tout en trouvant les valeurs de x et y.

Exemple2

Une image d'entrée contenant l'instruction du problème suivant -

Début avec Qwen2.5-Math

Le modèle découvre la valeur de la dernière expression comme 50.

Exemple3

Une image d'entrée contenant l'instruction du problème suivant -

Début avec Qwen2.5-Math

Le modèle découvre la valeur de l'expression ci-dessus comme 5.

Conclusion

Dans cet article, nous avons exploré Qwen2.5-Math - une série de modèles mathématiques avec des capacités de raisonnement robustes. Nous avons examiné ses composants, ses données de formation, son architecture et ses performances sur divers repères standard. De plus, nous avons examiné la démo, en le testant avec une gamme d'exemples modérés à complexes.

Principaux à retenir

Les modèles QWEN2.5-Math prennent en charge les capacités de raisonnement mathématique avancées et présentent des capacités de raisonnement mathématique avancées. Il utilise des techniques telles que la chaîne de pensées (COT) et le raisonnement intégré à l'outil (TIR).
La série QWEN2.5 comprend plusieurs variantes basées sur le nombre de paramètres, avec des modèles disponibles en paramètres 1.5b, 7b et 72b.
Les modèles QWEN2.5-Math exploitent 1 billion de jetons pour la pré-formation, une augmentation substantielle par rapport aux 700 milliards de jetons utilisés pour QWEN2-Math.
Qwen2.5-Math dépasse Qwen2-Math à travers divers repères anglais et chinois. De plus, il surpasse les modèles comme Claude3 Opus, GPT-4 Turbo et Gemini 1.5 Pro sur des repères difficiles tels que AIME 2024.

Questions fréquemment posées

Q1. Quelle est la différence entre Qwen2.5-Math et Qwen2-Math?

A. Qwen2.5-Math est une version améliorée de QWEN2-Math, offrant des performances améliorées, une meilleure précision dans la résolution de problèmes mathématiques complexes et des techniques de formation améliorées.

Q2. Quel modèle fonctionne mieux pour les tâches mathématiques complexes, QWEN2.5-Math ou Qwen2-Math?

A. Qwen2.5-Math surpasse généralement QWEN2-Math sur des tâches complexes en raison de sa formation avancée et de ses capacités raffinées dans le raisonnement mathématique.

Q3. Comment Qwen2.5-Math et Qwen2-Math gèrent-ils le raisonnement mathématique?

A. Les deux modèles sont conçus pour le raisonnement mathématique, mais Qwen2.5 utilise des algorithmes plus sophistiqués et des données de formation pour résoudre plus efficacement des problèmes difficiles.

Q4. Quelle est la signification des données de formation dans QWEN2.5-MATH VS QWEN2-Math?

A. Qwen2.5-Math bénéficie d'un ensemble de données plus large et plus diversifié, ce qui améliore sa capacité à généraliser et à résoudre des problèmes mathématiques complexes plus précisément que Qwen2-Math.

Q5. Y a-t-il des différences dans la vitesse de traitement entre Qwen2.5-Math et Qwen2-Math?

A. Qwen2.5 optimise le traitement plus rapide et fournit des réponses plus rapides par rapport à QWEN2-MATH tout en maintenant une grande précision.

Les médias présentés dans cet article ne sont pas détenus par l'analytique vidhya et sont utilisés à la discrétion de l'auteur.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!