AI 数学オリンピックの優勝モデルが登場しました!
この大会では合計 5 チームが優勝し、Numina チームが 1 位、CMU_MATH が 2 位、試験の結果暫定的に 3 位、codeinter チームと Conor #2 チームがそれぞれ 5 点で 4 位と 3 位を獲得しました。
当時、公式は受賞者のリストを発表しただけで、その背後にあるモデルに関する詳細は明らかにしませんでした。誰もが気になる、優勝チームはどのモデルを使用したのか? 先ほど、AIMO Progress Awards 上位 4 位のモデルが発表されました。
チャンピオンシップチームが使用したモデルは、deepseek-math-7b-base の微調整バージョンである NuminaMath 7B TIR です。
2 位のチームは、2 つの DeepSeek-Math-7B-RL モデルを微調整しました。1 つはポリシー モデル (ソリューション生成用) として、もう 1 つは報酬モデル (加重多数決用) としてソリューションがスコアリングされます。 3 位も、微調整を行わずに DeepSeek-Math-7B-RL モデルを使用し、多数決戦略を使用して、確立されたスコアリング ルールを通じて正解を選択しました。 4 位のチームも deepseek-math-7b-rl を使用し、パラメータ設定温度は 0.9、top_p は 1.0、最大トークン数は 2048 でした。コーディング ツールと組み合わせると、このモデルは MATH ベンチマークで 58.8% を達成します。 上位 4 チームがすべて DeepSeekMath-7B を基本モデルとして選択し、良好な結果を達成したことを見つけるのは難しくありません。このモデルの数学的推論能力は GPT-4 の能力に近く、MATH ベンチマーク リストにある 30B ~ 70B のオープン ソース モデルの数を上回っています。 チャンピオン: NuminaMath 7B TIRモデル
次に、この大会のチャンピオンプランを詳しく見てみましょう。
NuminaMath は、ツール統合推論 (TIR) を使用して数学的問題を解決するように訓練された言語モデルのファミリーです。 NuminaMath 7B TIR は、2 段階の教師付き微調整を備えた deepseek-math-7b-base の微調整バージョンです: ステージ 1: 自然言語の数学的問題の大規模モデリングおよびソリューションでは、基本モデルが多様なデータセットに基づいて微調整されており、各ソリューションは推論を容易にするために思考連鎖 (CoT) を使用してテンプレート化されています。 フェーズ 2: ツール統合推論 (TIR) の合成データセットでフェーズ 1 で取得したモデルを微調整します。ここでは、各数学的問題が一連の基礎となる原理、Python プログラム、およびその出力に分割されます。これにより、GPT-4 はコード実行フィードバックを含む ToRA 形式 (Microsoft) ソリューションを生成します。このデータを微調整すると、自然言語推論と Python REPL を使用した中間結果の計算を組み合わせて数学的問題を解決できる推論エージェントが作成されます。
NuminaMath 7B TIR が競技レベルの数学問題を解くために特別に作成されたことは注目に値します。したがって、このモデルは一般的なチャット アプリケーションでは使用しないでください。貪欲なデコードを使用して、優勝チームは、モデルが AMC レベル 12 の問題を解決できることを発見しましたが、一般に、難しい AIME および数学オリンピック レベルの問題に対する効率的な解決策を生成するのに苦労しました。このモデルはまた、おそらくその能力が限られており、視覚などのモダリティが欠如しているため、幾何学的な問題を解決するのが困難です。 以上が第1回AI数学オリンピック競技プラン発表:優勝4チームはいずれも国産モデルDeepSeekMathを選択の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。