Durch Innovationen auf Algorithmenebene wird sich die Fähigkeit großer Sprachmodelle zur Lösung mathematischer Probleme in Zukunft weiter verbessern.
In den letzten Tagen überschwemmte die Nachricht den Bildschirm, dass der 17-jährige Technikerschüler Jiang Ping bei den Qualifikationsspielen für den Alibaba Global Mathematics Competition 2024 weltweit den 12. Platz belegte. Gleichzeitig zeigen die Ergebnisse der AI Challenge, dass unter allen 563 teilnehmenden KI-Teams die höchste Punktzahl 34 Punkte und die durchschnittliche Punktzahl 18 Punkte betrug und damit mit dem durchschnittlichen Niveau menschlicher Spieler gleichzog.
Der größte Nachteil der KI bei der Teilnahme an Mathematikwettbewerben ist ihr schwaches logisches Denkvermögen und es ist schwierig, für Beweisfragen die volle Punktzahl zu erreichen. Dies ist auch eine große Herausforderung, vor der aktuelle große Sprachmodelle (LLM) wie GPT-4 und LLaMA bei Aufgaben stehen, die Strategie und logisches Denken erfordern.
Eines der wichtigen Hindernisse ist die Genauigkeit und Glaubwürdigkeit der Ergebnisse, insbesondere in mathematischen Kontexten, in denen Genauigkeit garantiert werden muss. LLM erzeugt beim Denken häufig Halluzinationen. Die Ausgabe mag oberflächlich betrachtet vernünftig erscheinen, ist aber tatsächlich irrelevant oder sachlich ungenau, was letztendlich zu einem unangemessenen Argumentationsprozess führt.
Natürliches Umschreiben von Techniken wie der Selbstverfeinerung kann dabei helfen, diese Tendenz zu beseitigen, kann aber dennoch zu irreführenden oder fehlerhaften Ergebnissen bei komplexen realen mathematischen Problemen führen.
Um diese Herausforderungen zu bewältigen, haben Forscher der Fudan-Universität und des Shanghai AI Lab daher MCT Self-Refine (MCTSr) vorgeschlagen, das LLM mit dem Monte-Carlo-Tree-Search-Algorithmus (MCTS) kombiniert und sich auf die Verbesserung der Leistung von LLM in komplexen Bereichen konzentriert Aufgaben. Leistung bei mathematischen Denkaufgaben (z. B. Fragen der Mathematikolympiade).
MCTS ist ein Entscheidungsfindungstool, das häufig in Szenarien der künstlichen Intelligenz eingesetzt wird, die strategische Planung erfordern, normalerweise in Spielen und komplexen Problemlösungsumgebungen. Durch die Kombination der Systemexplorationsfunktionen von MCTS mit den Selbstverfeinerungs- und Selbstbewertungsfunktionen von LLM zielt dieses Dokument darauf ab, einen leistungsfähigeren Rahmen für die Bewältigung komplexer Argumentationsaufgaben zu schaffen, die mit dem aktuellen LLM nur schwer zu lösen sind.
Papieradresse: https://arxiv.org/pdf/2406.07394
Projektadresse: https://github.com/trotsky1997/MathBlackBox
Allerdings bei der Kombination von MCTS mit LLM Während des Integrationsprozesses gibt es einige technische Herausforderungen. Herkömmliche MCTS-Strategien passen möglicherweise nicht gut zur stochastischen und generativen Natur der LLM-Ergebnisse, die typischerweise einen unendlichen, kontinuierlichen Raum potenzieller Aktionen umfassen. Diese Inkonsistenz erfordert angepasste Erwartungsberechnungs- und Backpropagation-Methoden innerhalb des MCTS-Frameworks, um die einzigartigen Eigenschaften von LLM besser zu berücksichtigen.
Darüber hinaus führten die Forscher eine dynamische Beschneidungsstrategie ein, die eine verbesserte Konfidenz-Obergrenzen-Formel (UCB) beinhaltet, um das Explorations-Ausbeutungs-Gleichgewicht zu optimieren, das für eine effektive Entscheidungsfindung bei Hochrisikoaufgaben erforderlich ist.
Man kann sagen, dass diese Forschung die Anwendung von LLM bei komplexen Denkproblemen vorantreibt und den Grundstein für die zukünftige Integration KI-bezogener technologischer Innovationen legt, wodurch LLM-gesteuerte Anwendungen eine leistungsfähigere Entscheidungsfindung, Argumentationsgenauigkeit und Zuverlässigkeit ermöglichen Sex.
Übersicht über die Methode
Das MCTSr-Architekturdiagramm ist in Abbildung 1 dargestellt:
Der MCTSr-Workflow umfasst:
Initialisierung: Verwenden Sie modellgenerierte Antworten und Dummy-Antworten, um Wurzelknoten zu etablieren, um Modellüberschreitungen zu minimieren. Anpassungstrend;
Auswahl: Dieser Algorithmus verwendet die Wertfunktion Q, um alle unvollständig erweiterten Antworten zu sortieren, und verwendet eine gierige Strategie, um den Knoten mit dem höchsten Wert für die weitere Untersuchung und Optimierung auszuwählen.
Selbstverfeinerung: Wählen Sie eine gute Antwort aus Nutzen Sie zur Optimierung das Self-Refine-Framework. Zunächst generiert das Modell Feedback m, das den Optimierungsprozess leitet, um eine verbesserte Antwort a zu erzeugen.
Selbstbewertung: Die verfeinerte Antwort wird bewertet, um einen Belohnungswert abzutasten, und ihr Q-Wert wird berechnet. Dies beinhaltet Feedback und Einschränkungen zur Selbstbelohnung des Modells, wie z. B. strenge Bewertungsstandards und die Unterdrückung vollständiger Bewertungen, um die Zuverlässigkeit und Fairness der Bewertung sicherzustellen Aktualisieren Sie die Wertinformationen des Baums. Wenn sich der Q-Wert eines untergeordneten Knotens ändert, aktualisieren Sie den Q-Wert des übergeordneten Knotens.
UCT-Aktualisierung: Nachdem die Q-Wert-Aktualisierung aller Knoten abgeschlossen ist, bestimmen Sie einen Kandidatenknotensatz C für die weitere Erweiterung oder Auswahl und Verwenden Sie dann die UCT-Aktualisierungsformel, um die UCT-Werte aller Knoten zur Vorbereitung auf die nächste Auswahlstufe zu aktualisieren.
Wiederholen Sie die oben genannten Schritte, bis die Beendigungsbedingung T erfüllt ist.
In der Selbstverfeinerungsphase optimiert das Modell die Antwort a auf Frage P durch mehrere Runden von Eingabeaufforderungen zur Dialogverfeinerung. Zunächst generiert das Modell einen reflektierenden oder kritischen Kommentar m zur Antwort a. Anschließend modifiziert das Modell unter Anleitung von m die Antwort a, um eine verbesserte Version a' zu erzeugen. Diese iterative Verfeinerung verbessert die Qualität der Modellantwort.
SelbsteinschätzungIm Antwortverfeinerungsprozess des mathematischen Problems P wird der Q-Wert einer Antwort a als die erwartete Qualität der weiteren Verfeinerung von a zu einer besseren Antwort definiert. Diese Definition basiert auf der Markov-Eigenschaft des Übergangs von a zu seiner umgeschriebenen Form, d. h. der nächste Zustand (d. h. die umgeschriebene Antwort) hängt nur vom aktuellen Zustand (d. h. der aktuellen Antwort a) ab und hat nichts mit dem zu tun vorheriger Status.
Darüber hinaus haben die Forscher drei Einschränkungen entworfen: Prompt-Einschränkungen, Unterdrückung der vollständigen Punktzahl und wiederholte Stichproben. Berechnen Sie nach der Probenahme den Q-Wert von a.
Backpropagation
Nachdem die Belohnungswerte aller Blattknoten abgetastet und die Q-Werte aktualisiert wurden, werden diese Änderungen an ihre übergeordneten Knoten und Vorfahrenknoten weitergegeben. Wenn sich während dieses Aktualisierungsprozesses der Q-Funktionswert eines beliebigen Elements in der Menge der Kinder (a) des Knotens a ändert, wird auch der Q-Funktionswert des Knotens a aktualisiert. Eine solche Weitergabe stellt sicher, dass der Q-Wert eines Knotens den neuesten Status und die neueste Bewertung aller seiner möglichen untergeordneten Knoten widerspiegelt.
UCT und Auswahl aktualisieren
Nachdem die Q-Werte aller Knoten im Baum aktualisiert wurden, geht es in die nächste Runde der Auswahlphase. Dieser Prozess umfasst die folgenden Schritte:
Auswahl des Kandidatenknotens: Bei der Auswahl eines Knotens muss der Forscher nicht beim Wurzelknoten beginnen, sondern durchläuft die Knoten im Baum in hierarchischer Reihenfolge.
UCT-Update: Diese Studie basiert auf AlphaGo und verwendet UCT- und UCB-1-Methoden, um die Erkundung und Nutzung von Knoten für Knoten a im Kandidatensatz C auszugleichen. Der UCT_a-Wert lautet:
Beendigungsfunktion
Vorzeitige Beendigung: Die Beendigung erfolgt, wenn die Verbesserung der Suchergebnisse abnimmt oder wenn aufeinanderfolgende Suchvorgänge zu doppelten Ergebnissen führen.
Suchbeschränkungen: Die Suche wird beendet, sobald die Anzahl der Erweiterungen einen vorgegebenen Grenzwert erreicht oder ein oder mehrere Knoten im Baum die maximale Tiefenbeschränkung erfüllen.
Experimentelle Ergebnisse
Um die Wirksamkeit des MCTSr-Algorithmus bei der Lösung mathematischer Probleme zu bewerten, verwendeten die Forscher LLaMA3-8B als Basismodell und nutzten MCTSr zur Verbesserung. Sie verglichen LLaMA3-8B mit GPT-4, Claude 3 und Gemini 1.5-Pro in mehreren Setups, darunter Zero-Shot CoT, Self-Refine, 4-Rollouts MCTSr und 8-Rollouts MCTSr.
Die Forscher bewerteten die obige Methode anhand der Testsätze GSM8K und GSM-hard (die typische bzw. anspruchsvolle mathematische Probleme enthalten). Die Ergebnisse sind in Tabelle 1 unten aufgeführt.
Es lässt sich feststellen, dass ein direkter Zusammenhang zwischen der Anzahl der Rollouts und der Erfolgsquote von MCTSr besteht und diese mit zunehmender Anzahl der Iterationen deutlich zunimmt, insbesondere im weniger komplexen GSM8K. Für den komplexeren GSM-Hard-Testsatz wird die Leistungsgrenze jedoch auch dann erreicht, wenn die Anzahl der Rollouts höher ist, was darauf hindeutet, dass die aktuelle Strategie bei der Lösung komplexer Probleme Einschränkungen aufweist.
Diese Ergebnisse unterstreichen die Robustheit und potenziellen Grenzen des MCT-Self-Refine-Algorithmus sowie die Notwendigkeit einer kontinuierlichen Verbesserung, um komplexere Herausforderungen effektiv zu bewältigen.
Tabelle 2 unten zeigt die Ergebnisse der Anwendung des MCT-Self-Refine-Algorithmus mit unterschiedlichen Komplexitätsstufen auf den MATH-Datensatz. Der Datensatz ist in fünf Schwierigkeitsstufen unterteilt, von Stufe 1 (am einfachsten) bis Stufe 5 (am anspruchsvollsten).
Die Ergebnisse zeigen, dass Level 1 die höchste Erfolgsquote aufweist. Nach 8 Rollouts erreichte MCTSr eine Erfolgsquote von 90,16 % und löste 394 von 437 Problemen. Mit zunehmender Anzahl an Rollouts erhöht sich die Erfolgsquote auf dieser Ebene deutlich.
Auf der anspruchsvollsten Schwierigkeitsstufe 5 hat MCTSr nach 8 Rollouts eine Erfolgsquote von 34,06 % und löst 451 von 1324 Problemen. Dies verdeutlicht die Leistungseinschränkungen dieses Algorithmus in hochkomplexen Szenarien mit zunehmendem Schwierigkeitsgrad.
Die Gesamtleistung aller Ebenen zeigt, dass MCTSr nach 8 Rollouts eine kumulative Erfolgsquote von 58,24 % aufweist und 2912 von 5000 Problemen löst. Diese Erfolgsquote ist eine deutliche Verbesserung gegenüber der anfänglichen Erfolgsquote von Zero-Shot CoT von 24,36 %. Dies zeigt, dass die Zunahme der Anzahl der Rollouts mit der Steigerung der Erfolgsquote einhergeht, was die Wirksamkeit des MCT-Self-Refine-Algorithmus bei der Verbesserung der Problemlösungsfähigkeiten auf verschiedenen Ebenen mathematischer Komplexität unterstreicht.
Diese Ergebnisse bestätigen auch das Potenzial des MCT-Self-Refine-Algorithmus in akademischen und problemlösenden Kontexten und unterstreichen seine Skalierbarkeit und Anpassungsfähigkeit an Probleme unterschiedlicher Komplexitätsstufen im MATH-Datensatz.
Tabelle 3 unten zeigt den MCT-Selbstreflexionsalgorithmus, der an drei Datensätzen des Olympiad Mathematical Competition getestet wurde: AlME, GAIC Math Odyssey und OlympiadBench.
AIME: Von 2,36 % für Zero-Shot CoT (22 gelöste Probleme) auf 11,79 % für MCTSr (110 gelöste Probleme).
GAIC Math Odyssey: Die Erfolgsquote stieg von 17,22 % (67 gelöste Probleme) auf 49,36 % (192 gelöste Probleme).
OlympiadBench: Verbessert von 1,25 % bei Zero-Shot CoT (16 gelöste Probleme) auf 7,76 % bei MCTSr (99 gelöste Probleme).
Diese Ergebnisse bestätigen die Anwendbarkeit des MCT-Self-Refine-Algorithmus auf unbekannte mathematische Probleme und weisen auf seine Vorteile in wettbewerbsintensiven akademischen Umgebungen wie Olympiaden hin.
wie in Tabelle 4 gezeigt. Im Vergleich zu aktuellen großen Closed-Source-Modellen kann MCTSr die mathematischen Argumentationsfähigkeiten von Open-Source-Modellen mit kleinen Parametern (wie LLaMa-3) effektiv auf ein vergleichbares Niveau verbessern.
Weitere technische Details und experimentelle Ergebnisse finden Sie im Originalpapier.
Das obige ist der detaillierte Inhalt vonGroßes Modell + Monte-Carlo-Baumsuche, ein Zug bringt LLaMa-3 8B Olympiad-Niveau nahe an GPT-4. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!