Tongyi Qianwen hat Qwen2-Math als Open-Source-Lösung entwickelt und ist damit das fortschrittlichste mathematikspezifische Modell

WBOY
Freigeben: 2024-08-09 19:44:14
Original
773 Leute haben es durchsucht

Laut Nachrichten vom 9. August hat das Alibaba Tongyi-Team ein mathematisches Modell der neuen Generation Qwen2-Math als Open Source bereitgestellt, das ein Basismodell und ein Befehls-Feinabstimmungsmodell mit den drei Parametern 1,5B, 7B und 72B umfasst. Qwen2-Math wurde auf der Grundlage des Open-Source-Großsprachenmodells Qwen2 von Tongyi Qianwen entwickelt. Das Flaggschiffmodell Qwen2-Math-72B-Instruct schneidet besser ab als GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro ​​und Llama Der maßgebliche Bewertungssatz MATH. -3.1-405B usw. behandelt eine Vielzahl mathematischer Probleme wie Algebra, Geometrie, Zählen und Wahrscheinlichkeit, Zahlentheorie usw. mit einer Genauigkeit von 84 % und ist damit das fortschrittlichste mathematikspezifische Modell.

Tongyi Qianwen hat Qwen2-Math als Open-Source-Lösung entwickelt und ist damit das fortschrittlichste mathematikspezifische Modell

Hinweis: In der MATH-Benchmark-Bewertung erreichte Qwen2-Math-72B-Instruct, das Flaggschiffmodell des mathematischen Modells Tongyi Qianwen, eine Genauigkeit von 84 % und übertraf damit GPT-4, Claude-3.5, Gemini-1.5-Pro ​und Open- und Closed-Source-Modelle wie Llama-3.1.

Das Qwen2-Math-Grundmodell wird mit dem großen Qwen2-Sprachmodell initialisiert und anhand eines sorgfältig entworfenen mathematikspezifischen Korpus vorab trainiert. Die Trainingsdaten umfassen umfangreiche und hochwertige Online-Mathematiktexte, Bücher, Codes und Prüfungsfragen und Qwen2 Mathematische Pre-Training-Daten für die Modellsynthese. Alle Datensätze vor dem Training und der Feinabstimmung wurden dekontaminiert.

Anschließend trainierte das F&E-Team die Anweisungs-Feinabstimmungsversion des Modells: Zuerst wurde ein mathematikspezifisches Belohnungsmodell basierend auf Qwen2-Math-72B trainiert, dann wurde das dichte Belohnungssignal mit einem binären Signal kombiniert, das anzeigt, ob Das Modell beantwortete die Frage richtig, indem es Learn-Labels verwendete, dann überwachte Feinabstimmungsdaten (SFT) durch Ablehnungsstichprobe erstellte und schließlich die GRPO-Methode verwendete, um das Modell basierend auf dem SFT-Modell zu optimieren.

Es wird berichtet, dass die Modelle der Qwen2-Math-Serie derzeit hauptsächlich Englisch unterstützen. Das Tongyi-Team wird bald eine zweisprachige Version auf Chinesisch und Englisch herausbringen, und auch mehrsprachige Versionen sind in der Entwicklung.

Das Tongyi-Team hat die Leistung des Unterrichts-Feinabstimmungsmodells in mehreren Bewertungssätzen für chinesische und englische Mathematik-Benchmarks bewertet. Zusätzlich zu gängigen Bewertungs-Benchmarks wie GSM8K und MATH hat es auch anspruchsvollere Prüfungswettbewerbstests eingeführt, wie z Tests auf olympischem Niveau. Benchmark-Bewertung OlympiadBench, College-Mathematik-Benchmark-Bewertung CollegeMath, College-Aufnahmeprüfung (GaoKao), Wettbewerbsfragen des American Mathematics Invitational Competition (AIME) 2024, Wettbewerbsfragen des American Mathematics Contest (AMC) 2023, chinesische Bewertungen umfassen den CMATH-Bewertungssatz, Mathematikfragen zur China College-Aufnahmeprüfung 2024 und zur High School-Aufnahmeprüfung. Am Ende schnitt Qwen2-Math-72B-Instruct äußerst gut ab und erzielte in den Top-Ten-Bewertungen Ergebnisse, die die anderer Open-Source-Mathematikmodelle bei weitem übertrafen.

Tongyi Qianwen hat Qwen2-Math als Open-Source-Lösung entwickelt und ist damit das fortschrittlichste mathematikspezifische Modell

Hinweis: Das Forschungs- und Entwicklungsteam hat das Modell unter Gier- und RM@8-Bedingungen bewertet. In der Tabelle sind drei Bewertungsergebnisse für jedes Qwen2-Math-72B-Instruct-Modell aufgeführt Punktzahl der Antwort, die unter den 8 Antworten am häufigsten vorkommt, und die Punktzahl der vom Belohnungsmodell ausgewählten Antwort unter den 8 Antworten.

„Können große Modelle mathematische Probleme lösen?“ ist nicht nur ein heißes Thema auf sozialen Plattformen, sondern auch ein Forschungsthema, das der Branche große Sorge bereitet. Für die Bearbeitung fortgeschrittener mathematischer Probleme sind Modelle mit komplexen, mehrstufigen logischen Denkfähigkeiten erforderlich. Das Tongyi-Team erklärte in einem technischen Blog, dass es hofft, durch Open Source „einen Beitrag zur wissenschaftlichen Gemeinschaft bei der Lösung fortgeschrittener mathematischer Probleme zu leisten“ und die mathematischen Fähigkeiten des Modells in Zukunft weiter verbessern wird.

Anhang: Qwen2-Math-Problemlösungsbeispiel

Tongyi Qianwen hat Qwen2-Math als Open-Source-Lösung entwickelt und ist damit das fortschrittlichste mathematikspezifische Modell

Das obige ist der detaillierte Inhalt vonTongyi Qianwen hat Qwen2-Math als Open-Source-Lösung entwickelt und ist damit das fortschrittlichste mathematikspezifische Modell. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:jiqizhixin.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage