Le premier plan de compétition de l'Olympiade mathématique de l'IA a été annoncé : les quatre équipes gagnantes ont toutes choisi le modèle national DeepSeekMath-IA-php.cn

Le premier plan de compétition de l'Olympiade mathématique de l'IA a été annoncé : les quatre équipes gagnantes ont toutes choisi le modèle national DeepSeekMath

王林

Libérer： 2024-07-16 18:14:57

original

1187 Les gens l'ont consulté

Le modèle gagnant de l'IA Math Olympiad est sorti !

Il y a quelques jours, avec l'annonce de la liste, le nombre de discussions sur le premier AI Mathematics Olympiad (AIMO) Progress Award est resté élevé.

Au total, 5 équipes ont remporté cette compétition. L'équipe Numina a remporté la première place, CMU_MATH s'est classée deuxième, après les examens temporairement classées troisième, les équipes Codeinter et Conor #2 ont remporté respectivement la quatrième et la troisième place.

Le premier plan de compétition de lOlympiade mathématique de lIA a été annoncé : les quatre équipes gagnantes ont toutes choisi le modèle national DeepSeekMath

^{Tao Zhexuan fut surpris.}

A cette époque, le responsable a seulement annoncé la liste des gagnants et n'a pas révélé plus d'informations sur les modèles derrière eux. Tout le monde est curieux, quel modèle l’équipe gagnante a-t-elle utilisé ?

Tout à l'heure, les modèles derrière les quatre meilleurs AIMO Progress Awards ont été annoncés.

Le modèle utilisé par l'équipe de championnat est NuminaMath 7B TIR, qui est une version affinée de deepseek-math-7b-base.

L'équipe de la deuxième place a affiné deux modèles DeepSeek-Math-7B-RL, l'un comme modèle de politique (pour générer des solutions) et l'autre comme modèle de récompense (pour le vote à la majorité pondérée (les solutions sont notées).

La troisième place a également utilisé le modèle DeepSeek-Math-7B-RL sans aucun réglage fin, et a utilisé une stratégie de vote majoritaire pour sélectionner la bonne réponse via les règles de notation établies.

L'équipe classée quatrième a également utilisé deepseek-math-7b-rl, avec des paramètres de température de 0,9, top_p de 1,0 et un maximum de jetons de 2048. Associé à des outils de codage, ce modèle atteint 58,8 % sur le benchmark MATH.

Il n'est pas difficile de constater que les quatre meilleures équipes ont toutes choisi DeepSeekMath-7B comme modèle de base et ont obtenu de bons résultats. La capacité de raisonnement mathématique de ce modèle est proche de celle de GPT-4, dépassant un certain nombre de modèles open source 30B ~ 70B sur la liste de référence MATH.

Champion : modèle NuminaMath 7B TIR

Ensuite, examinons en détail le plan du championnat pour cette compétition.

NuminaMath est une famille de modèles de langage formés pour résoudre des problèmes mathématiques à l'aide du raisonnement intégré par outils (TIR).

NuminaMath 7B TIR est une version affinée de deepseek-math-7b-base avec deux étapes de réglage fin supervisé :

Étape 1 : Modélisation à grande échelle de problèmes mathématiques en langage naturel et solutions, le modèle de base est affiné sur divers ensembles de données, où chaque solution est modélisée à l'aide de chaînes de pensées (CoT) pour faciliter l'inférence.

Phase 2 : Affiner le modèle obtenu lors de la phase 1 sur un ensemble de données synthétiques de Tool Integrated Reasoning (TIR), où chaque problème mathématique est décomposé en une série de principes sous-jacents, de programmes Python et de leurs sorties. Cela incitera GPT-4 à générer une solution au format ToRA (Microsoft) avec un retour d'exécution de code. L'ajustement de ces données aboutit à un agent de raisonnement capable de résoudre des problèmes mathématiques en combinant le raisonnement en langage naturel et le calcul de résultats intermédiaires à l'aide de Python REPL.

Il convient de noter que NuminaMath 7B TIR est spécifiquement créé pour résoudre des problèmes mathématiques de niveau compétition. Par conséquent, ce modèle ne doit pas être utilisé dans les applications de chat générales. Grâce à un décodage gourmand, l'équipe gagnante a découvert que le modèle était capable de résoudre les problèmes de niveau 12 de l'AMC, mais qu'il avait généralement du mal à générer des solutions efficaces aux problèmes difficiles de niveau AIME et Math Olympiad. Le modèle a également des difficultés à résoudre des problèmes géométriques, probablement en raison de sa capacité limitée et du manque de modalités telles que la vision.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!