通義千問開源Qwen2-Math，成為最先進的數學專案模型-人工智慧-PHP中文網

通義千問開源Qwen2-Math，成為最先進的數學專案模型

WBOY

發布： 2024-08-09 19:44:14

原創

777 人瀏覽過

8月9日訊息，阿里通義團隊開源新一代數學模型Qwen2-Math，包含1.5B、7B、72B三個參數的基礎模型和指令微調模型。 Qwen2-Math基於通義千問開源大語言模型Qwen2研發，旗艦模型Qwen2-Math-72B-Instruct在權威測評集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama -3.1-405B等，以84%的準確率處理了代數、幾何、計數與機率、數論等多種數學問題，成為最先進的數學專項模型。

通義千問開源Qwen2-Math，成為最先進的數學專案模型

註：在MATH基準測評中，通義千問數學模型的旗艦款Qwen2-Math-72B-Instruct取得了84%的準確率，超過GPT-4、Claude-3.5、Gemini-1.5-Pro和Llama-3.1等開閉源模型。

Qwen2-Math基礎模型使用Qwen2大語言模型進行初始化，並在精心設計的數學專用語料庫上進行預訓練，訓練資料包含大規模高品質的數學網路文字、書籍、程式碼、考試題目，以及由Qwen2模型合成的數學預訓練資料。所有預訓練和微調資料集都進行了去污染處理。

隨後，研發團隊訓練了指令微調版本模型：首先，基於Qwen2-Math-72B訓練一個數學專用的獎勵模型；接著，將密集的獎勵訊號與指示模型是否正確回答問題的二元訊號結合，用作學習標籤，再透過拒絕採樣建構監督微調（SFT）資料；最後在SFT模型基礎上使用GRPO方法優化模型。

據悉，Qwen2-Math系列模型目前主要支援英文，通義團隊很快就將推出中英雙語版本，多語言版本也在開發中。

通義團隊在多個中英文數學基準測評集對指令微調模型作了性能評估，除了GSM8K和MATH等常見的測評基準，還引入了更具挑戰性的考試競賽類測試，如奧林匹克級別的基準測評OlympiadBench、大學數學級的基準測評CollegeMath、高考（GaoKao）、美國數學邀請賽（AIME）2024賽題、美國數學競賽（AMC）2023賽題，中文測評則有CMATH測評集、2024年中國高考和中考數學題。最終，Qwen2-Math-72B-Instruct表現優異，在十大測評中都獲得了遠超其他開源數學模型的成績。

通義千問開源Qwen2-Math，成為最先進的數學專案模型