10 Zeilen Code verbesserten die Mathematik großer Modelle um 20 %. Die Forschung zu „Yeluzi' wurde auch von Google getestet. Der Hauptautor ist alles Autodidakt.

WBOY
Freigeben: 2024-08-27 15:31:33
Original
747 Leute haben es durchsucht

Mit weniger als 10 Codezeilen können die mathematischen Fähigkeiten großer Modelle (GSM8k) um 20 % verbessert werden!

Mehrere unabhängige Wissenschaftler haben Verbesserungen für große Modellstichproben vorgeschlagen, was die Aufmerksamkeit der Open-Source-Community auf sich gezogen hat.

Derzeit hat diese Methode bei Mistral-7B Ergebnisse erzielt, und Tests an Llama3-70B sind ebenfalls im Gange.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Diese Methode wird als Min-P-Sampling bezeichnet und zielt darauf ab, die Kohärenz und Vielfalt des generierten Textes auszugleichen.

Einfach ausgedrückt ermöglicht es dem Modell, in verschiedenen Situationen unterschiedliche Eigenschaften auszuüben, z. B. die Aufrechterhaltung einer stabilen Leistung bei Sachthemen und die Kreativität in Szenarien wie dem Schreiben.

Derzeit hat diese Methode bei Mistral-7B Ergebnisse erzielt, und die Tests bei Llama-70B beginnen bald.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

In dem Artikel erwähnte der Autor, dass diese Methode in der Open-Source-Community weit verbreitet ist.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Gleichzeitig verriet der Autor auch, dass auch Hersteller von Closed-Source-Modellen wie Anthropic und Google min-p getestet haben oder testen.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Die Nachricht wurde auch von Google bestätigt. Logan Kilpatrick, der Leiter der Entwickler-Community, der von OpenAI zu Google gewechselt ist, hat mit „On it“ geantwortet.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Abram Jackson, ein Forscher bei Microsoft Copilot, sagte nach der Lektüre, dass dies die erste Verbesserung sei, die er in Bezug auf das Token-Sampling im Inferenzprozess gesehen habe, und dass es in Zukunft noch viel Raum für Verbesserungen gebe.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Erwähnenswert ist, dass der Hauptautor dieser vielbeachteten Studie, Minh Nhat Nguyen, nie systematisch CS gelernt hat, sondern Autodidakt ist.

Mit Hilfe einer KI-Sicherheitsforschungsorganisation namens Apart Research haben Minh und andere Mitglieder des Teams das Projekt abgeschlossen.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Dynamische Anpassung des Sampling-Schwellenwerts

min-p ist eine dynamische Kürzungs-Sampling-Methode, deren Kern darin besteht, den minimalen Wahrscheinlichkeitsschwellenwert entsprechend der maximalen Wahrscheinlichkeit der Token-Verteilung bei jedem Schritt zu skalieren.

Der Zweck besteht hauptsächlich darin, die Kohärenz und Vielfalt des generierten Textes auszugleichen, insbesondere unter höheren Temperaturbedingungen.

Konkret führt min-p einen grundlegenden Wahrscheinlichkeitsschwellenwert p_base ein, der die Mindestwahrscheinlichkeitsanforderung für den Eintritt in den Stichprobenpool darstellt.

Beim Generieren von Token in jedem Schritt multipliziert min-p p_base mit der größten Token-Wahrscheinlichkeit p_max in der aktuellen Wahrscheinlichkeitsverteilung, um einen skalierten absoluten Schwellenwert p_scaled zu erhalten.

Nur Token mit einer Wahrscheinlichkeit größer oder gleich p_scaled können in den Stichprobenpool gelangen.

Wenn die Vorhersagewahrscheinlichkeit des Modells für ein bestimmtes Token sehr hoch ist (d. h. p_max ist sehr groß), ist auch der Wert von p_scaled sehr hoch, was dazu führt, dass der Stichprobenpool stark reduziert wird und die überwiegende Mehrheit der niedrig- Wahrscheinlichkeitstoken werden gefiltert, sodass nur wenige mit hoher Konfidenz übrig bleiben.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Wenn die Vorhersagewahrscheinlichkeiten des Modells für alle Token relativ nahe beieinander liegen (p_max ist niedriger), wird der Wert von p_scaled werden entsprechend auch niedriger, wodurch die Anforderungen an den Stichprobenpool gelockert werden. Durch die Einbeziehung von mehr Token mit mittlerer Wahrscheinlichkeit erhält das Modell mehr Raum für die Generierung vielfältigerer Inhalte.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Nach der Bestimmung des Probenpools skaliert min-p die Token-Wahrscheinlichkeitsverteilung entsprechend der Temperatur.

Es dividiert die logarithmische Wahrscheinlichkeit des Tokens durch einen Temperaturparameter τ und erhält nach der Normalisierung die skalierte Wahrscheinlichkeitsverteilung der Temperatur.

Ein τ-Wert größer als 1 führt zu einer flacheren Wahrscheinlichkeitsverteilung und erhöht die Wahrscheinlichkeit, dass Token mit geringer Wahrscheinlichkeit ausgewählt werden. Wenn

τ kleiner als 1 ist, wird die Verteilung schärfer, was die Vorteile von Token mit hoher Wahrscheinlichkeit verstärkt .

Schließlich wählt min-p gemäß der angepassten Wahrscheinlichkeitsverteilung zufällig den nächsten Token aus dem skalierten Stichprobenpool aus.

Stabilität und Kreativität, „Ich will alles“

Was bewirkt die Min-P-Methode? Der Autor verwendete Mistral-7B als Basismodell zum Testen. Schauen wir uns die Ergebnisse nach Szenario an.

In der Inferenzaufgabe verwendet der Autor den GPQA-Datensatz. Wenn die Temperatur 1 beträgt, können Sie sehen, dass min-p gegenüber dem vergangenen top-p einen leichten Vorteil hat.

Mit zunehmender Temperatur zeigt der GPQA-Score insgesamt einen Abwärtstrend, es ist jedoch zu beobachten, dass min-p deutlich langsamer abnimmt als top-p.

Der Abwärtstrend von Min-P wird erst deutlich, wenn die Temperatur 3 erreicht, wenn der Wert von Top-P nahe bei 0 liegt.

Mit anderen Worten: Im Vergleich zu Top-P behält Min-P die erforderliche Stabilität bei Inferenzaufgaben besser bei.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Auch mathematische Aufgaben müssen eine stabile Leistung gewährleisten. Hier hat der Autor den GSM8K-Datensatz zum Testen verwendet.

Das Ergebnis ist, dass der Min-P-Wert mit der Temperatur schneller abnimmt als bei der GPQA, aber immer noch langsamer als bei der Top-P-Methode.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Die dritte Aufgabenart ist kreatives Schreiben. Derzeit sind die Anforderungen an die Stabilität nicht so hoch, aber das Modell muss kreativer sein.

Dieser Test wurde mit dem AlpacaEval-Datensatz durchgeführt und die experimentellen Daten wurden von einem unabhängigen Gutachter in der Open-Source-Community erhalten.

Experimentelle Ergebnisse zeigen, dass bei den Einstellungen Temperatur=1,5 und min-p=0,1 die Leistung von min-p besonders herausragend ist und kreative Schreibinhalte generieren kann, die mit der Top-p-Methode nur schwer zu generieren sind.

Unter diesem Parameter erreichte der mit der Min-P-Methode erhaltene Text eine Präferenzrate für menschliches Urteilsvermögen von 58,12 %, was viel höher ist als die Leistung anderer Methoden unter ähnlichen Einstellungen.

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

Papieradresse:

https://arxiv.org/abs/2407.01082

GitHub:

https://github.com/menhguin/minp_paper/

Referenzlink:

https:// x.com/menhguin/status/1826132708508213629

Das obige ist der detaillierte Inhalt von10 Zeilen Code verbesserten die Mathematik großer Modelle um 20 %. Die Forschung zu „Yeluzi' wurde auch von Google getestet. Der Hauptautor ist alles Autodidakt.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:myzaker.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!