Heim Technologie-Peripheriegeräte KI Die Obergrenze der mathematischen Fähigkeiten von LLaMA-2-7B hat 97,7 % erreicht? Xwin-Math erschließt Potenziale mit synthetischen Daten

Die Obergrenze der mathematischen Fähigkeiten von LLaMA-2-7B hat 97,7 % erreicht? Xwin-Math erschließt Potenziale mit synthetischen Daten

Mar 15, 2024 pm 12:07 PM
工程

Synthetische Daten erschließen weiterhin das mathematische Denkpotenzial großer Modelle!

Mathematische Problemlösungsfähigkeit gilt seit jeher als wichtiger Indikator für den Intelligenzgrad von Sprachmodellen. Normalerweise haben nur sehr große Modelle oder Modelle, die ein umfassendes mathematisches Vortraining durchlaufen haben, eine Chance, bei mathematischen Problemen gute Ergebnisse zu erzielen.

Kürzlich hat eine vom Swin-Transformer-Team erstellte und gemeinsam von Wissenschaftlern der Xi'an Jiaotong University, der University of Science and Technology of China, der Tsinghua University und Microsoft Research Asia erstellte Forschungsarbeit Xwin diese Wahrnehmung untergraben und enthüllt Das Sprachmodell im Maßstab 7B (d. h. 7 Milliarden Parameter) (LLaMA-2-7B) hat im Rahmen einer allgemeinen Vorschulung großes Potenzial bei der Lösung mathematischer Probleme gezeigt und kann überwachte Feinabstimmungsmethoden auf der Grundlage synthetischer Daten verwenden, um das Modell immer weiter zu verbessern Perfekt. Stetige Förderung der mathematischen Fähigkeiten.

Diese Studie wurde auf arXiv mit dem Titel „Common 7B Language Models Again Possess Strong Math Capabilities“ veröffentlicht.

Die Obergrenze der mathematischen Fähigkeiten von LLaMA-2-7B hat 97,7 % erreicht? Xwin-Math erschließt Potenziale mit synthetischen Daten

  • Papier-Link: https://arxiv.org/pdf/2403.04706.pdf
  • Code-Link: https://github.com/Xwin-LM/Xwin-LM

Das Forschungsteam verwendete zunächst nur 7,5K-Daten zur Feinabstimmung der LLaMA-2-7B-Modellanweisungen und bewertete dann die Leistung des Modells in GSM8K und MATH. Experimentelle Ergebnisse zeigen, dass bei Auswahl der besten Antwort aus 256 generierten Antworten für jede Frage im Testsatz die Testgenauigkeit bis zu 97,7 % bzw. 72,0 % betragen kann. Dieses Ergebnis zeigt, dass selbst bei allgemeinem Vortraining das 7B-Niveau erreicht wird Die Entdeckung, dass selbst kleine Modelle das Potenzial haben, qualitativ hochwertige Antworten zu generieren, stellt die bisherige Ansicht in Frage, dass das Potenzial für leistungsstarkes mathematisches Denken nicht auf große und mathematisch verwandte vorab trainierte Modelle beschränkt ist.

Die Obergrenze der mathematischen Fähigkeiten von LLaMA-2-7B hat 97,7 % erreicht? Xwin-Math erschließt Potenziale mit synthetischen Daten

Die Forschung weist jedoch auch darauf hin, dass das Hauptproblem aktueller Sprachmodelle trotz ihres starken mathematischen Denkvermögens darin besteht, dass es schwierig ist, ihre inhärenten mathematischen Fähigkeiten konsequent zu fördern. Wenn beispielsweise im vorherigen Experiment nur eine generierte Antwort pro Frage berücksichtigt wurde, würde die Genauigkeit der GSM8K- und MATH-Benchmarks auf 49,5 % bzw. 7,9 % sinken. Dies spiegelt die Instabilität der mathematischen Fähigkeiten des Modells wider. Um dieses Problem zu lösen, übernahm das Forschungsteam die Methode der Erweiterung des überwachten Feinabstimmungsdatensatzes (SFT) und stellte fest, dass mit der Zunahme der SFT-Daten die Zuverlässigkeit des Modells bei der Generierung korrekter Antworten erheblich verbessert wurde.

In der Studie wurde auch erwähnt, dass durch die Verwendung synthetischer Daten der SFT-Datensatz effektiv erweitert werden kann und diese Methode fast so effektiv ist wie echte Daten. Das Forschungsteam nutzte die GPT-4 Turbo API, um synthetische mathematische Fragen und Problemlösungsprozesse zu generieren, und stellte die Qualität der Fragen durch einfache Verifizierungsaufforderungswörter sicher. Mit dieser Methode konnte das Team den SFT-Datensatz erfolgreich von 7,5.000 auf etwa eine Million Samples erweitern und so ein nahezu perfektes Skalierungsgesetz erreichen. Das resultierende Xwin-Math-7B-Modell erreichte eine Genauigkeit von 82,6 % bzw. 40,6 % auf GSM8K bzw. MATH und übertraf damit frühere SOTA-Modelle deutlich und sogar einige 70B-Modelle, wodurch eine sprunghafte Verbesserung erzielt wurde. Das Xwin-Math-70B-Modell erzielte im MATH-Bewertungssatz ein Ergebnis von 52,8 % und übertraf damit die frühe Version von GPT-4 deutlich. Dies ist das erste Mal, dass die auf der LLaMA-Reihe von Basismodellen basierende Forschung GPT-4 in MATH übertrifft.

Die Obergrenze der mathematischen Fähigkeiten von LLaMA-2-7B hat 97,7 % erreicht? Xwin-Math erschließt Potenziale mit synthetischen Daten

Die Forscher haben auch die Bewertungsindikatoren Pass@N und PassRatio@N definiert, um zu bewerten, ob das Modell die richtige Antwort ausgeben kann (was auf die potenzielle mathematische Fähigkeit des Modells hinweist) und wie hoch der Anteil der richtigen Antworten unter den N ist Ergebnisse des Modells (die die Stabilität der mathematischen Fähigkeiten des Modells anzeigen). Wenn die Menge an SFT-Daten klein ist, ist der Pass@256 des Modells bereits sehr hoch. Nach einer weiteren Erweiterung der SFT-Datenskala erhöht sich der Pass@256 des Modells nur sehr wenig, während das PassRatio@256 deutlich zunimmt. Dies zeigt, dass eine überwachte Feinabstimmung auf der Grundlage synthetischer Daten eine wirksame Möglichkeit ist, die Stabilität der mathematischen Fähigkeiten des Modells zu verbessern.

Die Obergrenze der mathematischen Fähigkeiten von LLaMA-2-7B hat 97,7 % erreicht? Xwin-Math erschließt Potenziale mit synthetischen Daten

Darüber hinaus liefert die Studie Einblicke in das Skalierungsverhalten bei verschiedenen Argumentationskomplexitäten und Fehlertypen. Wenn beispielsweise die Größe des SFT-Datensatzes zunimmt, folgt die Genauigkeit des Modells bei der Lösung mathematischer Probleme einer Potenzgesetzbeziehung mit der Anzahl der Inferenzschritte. Durch die Erhöhung des Anteils langer Inferenzschritte in den Trainingsbeispielen kann die Genauigkeit des Modells bei der Lösung schwieriger Probleme deutlich verbessert werden. Gleichzeitig stellte die Studie auch fest, dass Berechnungsfehler leichter zu mildern sind als Argumentationsfehler.

Die Obergrenze der mathematischen Fähigkeiten von LLaMA-2-7B hat 97,7 % erreicht? Xwin-Math erschließt Potenziale mit synthetischen Daten

Die Obergrenze der mathematischen Fähigkeiten von LLaMA-2-7B hat 97,7 % erreicht? Xwin-Math erschließt Potenziale mit synthetischen Daten

In der Mathematikprüfung der ungarischen Oberstufe, die die Verallgemeinerungsfähigkeit des Modells für mathematisches Denken zum Ausdruck bringt, erreichte Xwin-Math ebenfalls 65 %, nur nach GPT-4 den zweiten Platz. Dies zeigt, dass die Art und Weise, wie die Daten in der Studie synthetisiert wurden, nicht wesentlich an den Bewertungssatz angepasst war und eine gute Generalisierungsfähigkeit zeigte.

Die Obergrenze der mathematischen Fähigkeiten von LLaMA-2-7B hat 97,7 % erreicht? Xwin-Math erschließt Potenziale mit synthetischen Daten

Die Obergrenze der mathematischen Fähigkeiten von LLaMA-2-7B hat 97,7 % erreicht? Xwin-Math erschließt Potenziale mit synthetischen Daten

Diese Studie demonstriert nicht nur die Wirksamkeit synthetischer Daten bei der Erweiterung von SFT-Daten, sondern bietet auch eine neue Perspektive auf die Erforschung großer Sprachmodelle im Bereich der mathematischen Denkfähigkeiten. Das Forschungsteam erklärte, dass seine Arbeit den Grundstein für zukünftige Erforschung und Fortschritte auf diesem Gebiet gelegt habe, und freue sich darauf, künstliche Intelligenz zu fördern, um größere Durchbrüche bei der Lösung mathematischer Probleme zu erzielen. Angesichts der kontinuierlichen Weiterentwicklung der Technologie der künstlichen Intelligenz haben wir Grund zu der Annahme, dass KI im Bereich der Mathematik noch bessere Leistungen erbringen und Menschen mehr Hilfe bei der Lösung komplexer mathematischer Probleme bieten wird.

Der Artikel behandelt auch die Ergebnisse von Ablationsexperimenten und andere Bewertungsindikatoren der Datensynthesemethode. Einzelheiten finden Sie im vollständigen Text.

Das obige ist der detaillierte Inhalt vonDie Obergrenze der mathematischen Fähigkeiten von LLaMA-2-7B hat 97,7 % erreicht? Xwin-Math erschließt Potenziale mit synthetischen Daten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Jun 24, 2024 pm 03:04 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Entwicklungsprozess der künstlichen Intelligenz war die Steuerung und Führung großer Sprachmodelle (LLM) schon immer eine der zentralen Herausforderungen, um sicherzustellen, dass diese Modelle beides sind kraftvoll und sicher dienen der menschlichen Gesellschaft. Frühe Bemühungen konzentrierten sich auf Methoden des verstärkenden Lernens durch menschliches Feedback (RL

Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

Axiomatisches Training ermöglicht es LLM, kausales Denken zu erlernen: Das 67-Millionen-Parameter-Modell ist vergleichbar mit der Billionen-Parameter-Ebene GPT-4 Axiomatisches Training ermöglicht es LLM, kausales Denken zu erlernen: Das 67-Millionen-Parameter-Modell ist vergleichbar mit der Billionen-Parameter-Ebene GPT-4 Jul 17, 2024 am 10:14 AM

Zeigen Sie LLM die Kausalkette und es lernt die Axiome. KI hilft Mathematikern und Wissenschaftlern bereits bei der Forschung. Beispielsweise hat der berühmte Mathematiker Terence Tao wiederholt seine Forschungs- und Forschungserfahrungen mit Hilfe von KI-Tools wie GPT geteilt. Damit KI in diesen Bereichen konkurrenzfähig sein kann, sind starke und zuverlässige Fähigkeiten zum kausalen Denken unerlässlich. Die in diesem Artikel vorgestellte Forschung ergab, dass ein Transformer-Modell, das auf die Demonstration des kausalen Transitivitätsaxioms für kleine Graphen trainiert wurde, auf das Transitivitätsaxiom für große Graphen verallgemeinern kann. Mit anderen Worten: Wenn der Transformer lernt, einfache kausale Überlegungen anzustellen, kann er für komplexere kausale Überlegungen verwendet werden. Der vom Team vorgeschlagene axiomatische Trainingsrahmen ist ein neues Paradigma zum Erlernen des kausalen Denkens auf der Grundlage passiver Daten, nur mit Demonstrationen

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

Unbegrenzte Videogenerierung, Planung und Entscheidungsfindung, erzwungene Verbreitung der nächsten Token-Vorhersage und vollständige Sequenzverbreitung Unbegrenzte Videogenerierung, Planung und Entscheidungsfindung, erzwungene Verbreitung der nächsten Token-Vorhersage und vollständige Sequenzverbreitung Jul 23, 2024 pm 02:05 PM

Derzeit sind autoregressive groß angelegte Sprachmodelle, die das nächste Token-Vorhersageparadigma verwenden, auf der ganzen Welt populär geworden. Gleichzeitig haben uns zahlreiche synthetische Bilder und Videos im Internet bereits die Leistungsfähigkeit von Diffusionsmodellen gezeigt. Kürzlich hat ein Forschungsteam am MITCSAIL (darunter Chen Boyuan, ein Doktorand am MIT) erfolgreich die leistungsstarken Fähigkeiten des Vollsequenz-Diffusionsmodells und des nächsten Token-Modells integriert und ein Trainings- und Sampling-Paradigma vorgeschlagen: Diffusion Forcing (DF). ). Papiertitel: DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion Papieradresse: https:/

See all articles