10 Zeilen Code verbesserten die Mathematik großer Modelle um 20 %. Die Forschung zu „Yeluzi' wurde auch von Google getestet. Der Hauptautor ist alles Autodidakt.-Hardware-Rezension-php.cn

Heim

10 Zeilen Code verbesserten die Mathematik großer Modelle um 20 %. Die Forschung zu „Yeluzi' wurde auch von Google getestet. Der Hauptautor ist alles Autodidakt.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 27, 2024 pm 03:31 PM

谷歌模型研究数学开源 Autor hauptsächlich

Mit weniger als 10 Codezeilen können die mathematischen Fähigkeiten großer Modelle (GSM8k) um 20 % verbessert werden!

Mehrere unabhängige Wissenschaftler haben Verbesserungen für große Modellstichproben vorgeschlagen, was die Aufmerksamkeit der Open-Source-Community auf sich gezogen hat.

Derzeit hat diese Methode bei Mistral-7B Ergebnisse erzielt, und Tests an Llama3-70B sind ebenfalls im Gange.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Diese Methode wird als Min-P-Sampling bezeichnet und zielt darauf ab, die Kohärenz und Vielfalt des generierten Textes auszugleichen.

Einfach ausgedrückt ermöglicht es dem Modell, in verschiedenen Situationen unterschiedliche Eigenschaften auszuüben, z. B. die Aufrechterhaltung einer stabilen Leistung bei Sachthemen und die Kreativität in Szenarien wie dem Schreiben.

Derzeit hat diese Methode bei Mistral-7B Ergebnisse erzielt, und die Tests bei Llama-70B beginnen bald.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

In dem Artikel erwähnte der Autor, dass diese Methode in der Open-Source-Community weit verbreitet ist.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Gleichzeitig verriet der Autor auch, dass auch Hersteller von Closed-Source-Modellen wie Anthropic und Google min-p getestet haben oder testen.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Die Nachricht wurde auch von Google bestätigt. Logan Kilpatrick, der Leiter der Entwickler-Community, der von OpenAI zu Google gewechselt ist, hat mit „On it“ geantwortet.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Abram Jackson, ein Forscher bei Microsoft Copilot, sagte nach der Lektüre, dass dies die erste Verbesserung sei, die er in Bezug auf das Token-Sampling im Inferenzprozess gesehen habe, und dass es in Zukunft noch viel Raum für Verbesserungen gebe.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Erwähnenswert ist, dass der Hauptautor dieser vielbeachteten Studie, Minh Nhat Nguyen, nie systematisch CS gelernt hat, sondern Autodidakt ist.

Mit Hilfe einer KI-Sicherheitsforschungsorganisation namens Apart Research haben Minh und andere Mitglieder des Teams das Projekt abgeschlossen.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Dynamische Anpassung des Sampling-Schwellenwerts

min-p ist eine dynamische Kürzungs-Sampling-Methode, deren Kern darin besteht, den minimalen Wahrscheinlichkeitsschwellenwert entsprechend der maximalen Wahrscheinlichkeit der Token-Verteilung bei jedem Schritt zu skalieren.

Der Zweck besteht hauptsächlich darin, die Kohärenz und Vielfalt des generierten Textes auszugleichen, insbesondere unter höheren Temperaturbedingungen.

Konkret führt min-p einen grundlegenden Wahrscheinlichkeitsschwellenwert p_base ein, der die Mindestwahrscheinlichkeitsanforderung für den Eintritt in den Stichprobenpool darstellt.

Beim Generieren von Token in jedem Schritt multipliziert min-p p_base mit der größten Token-Wahrscheinlichkeit p_max in der aktuellen Wahrscheinlichkeitsverteilung, um einen skalierten absoluten Schwellenwert p_scaled zu erhalten.

Nur Token mit einer Wahrscheinlichkeit größer oder gleich p_scaled können in den Stichprobenpool gelangen.

Wenn die Vorhersagewahrscheinlichkeit des Modells für ein bestimmtes Token sehr hoch ist (d. h. p_max ist sehr groß), ist auch der Wert von p_scaled sehr hoch, was dazu führt, dass der Stichprobenpool stark reduziert wird und die überwiegende Mehrheit der niedrig- Wahrscheinlichkeitstoken werden gefiltert, sodass nur wenige mit hoher Konfidenz übrig bleiben.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Wenn die Vorhersagewahrscheinlichkeiten des Modells für alle Token relativ nahe beieinander liegen (p_max ist niedriger), wird der Wert von p_scaled werden entsprechend auch niedriger, wodurch die Anforderungen an den Stichprobenpool gelockert werden. Durch die Einbeziehung von mehr Token mit mittlerer Wahrscheinlichkeit erhält das Modell mehr Raum für die Generierung vielfältigerer Inhalte.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Nach der Bestimmung des Probenpools skaliert min-p die Token-Wahrscheinlichkeitsverteilung entsprechend der Temperatur.

Es dividiert die logarithmische Wahrscheinlichkeit des Tokens durch einen Temperaturparameter τ und erhält nach der Normalisierung die skalierte Wahrscheinlichkeitsverteilung der Temperatur.

Ein τ-Wert größer als 1 führt zu einer flacheren Wahrscheinlichkeitsverteilung und erhöht die Wahrscheinlichkeit, dass Token mit geringer Wahrscheinlichkeit ausgewählt werden. Wenn

τ kleiner als 1 ist, wird die Verteilung schärfer, was die Vorteile von Token mit hoher Wahrscheinlichkeit verstärkt .

Schließlich wählt min-p gemäß der angepassten Wahrscheinlichkeitsverteilung zufällig den nächsten Token aus dem skalierten Stichprobenpool aus.

Stabilität und Kreativität, „Ich will alles“

Was bewirkt die Min-P-Methode? Der Autor verwendete Mistral-7B als Basismodell zum Testen. Schauen wir uns die Ergebnisse nach Szenario an.

In der Inferenzaufgabe verwendet der Autor den GPQA-Datensatz. Wenn die Temperatur 1 beträgt, können Sie sehen, dass min-p gegenüber dem vergangenen top-p einen leichten Vorteil hat.

Mit zunehmender Temperatur zeigt der GPQA-Score insgesamt einen Abwärtstrend, es ist jedoch zu beobachten, dass min-p deutlich langsamer abnimmt als top-p.

Der Abwärtstrend von Min-P wird erst deutlich, wenn die Temperatur 3 erreicht, wenn der Wert von Top-P nahe bei 0 liegt.

Mit anderen Worten: Im Vergleich zu Top-P behält Min-P die erforderliche Stabilität bei Inferenzaufgaben besser bei.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Auch mathematische Aufgaben müssen eine stabile Leistung gewährleisten. Hier hat der Autor den GSM8K-Datensatz zum Testen verwendet.

Das Ergebnis ist, dass der Min-P-Wert mit der Temperatur schneller abnimmt als bei der GPQA, aber immer noch langsamer als bei der Top-P-Methode.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Die dritte Aufgabenart ist kreatives Schreiben. Derzeit sind die Anforderungen an die Stabilität nicht so hoch, aber das Modell muss kreativer sein.

Dieser Test wurde mit dem AlpacaEval-Datensatz durchgeführt und die experimentellen Daten wurden von einem unabhängigen Gutachter in der Open-Source-Community erhalten.

Experimentelle Ergebnisse zeigen, dass bei den Einstellungen Temperatur=1,5 und min-p=0,1 die Leistung von min-p besonders herausragend ist und kreative Schreibinhalte generieren kann, die mit der Top-p-Methode nur schwer zu generieren sind.

Unter diesem Parameter erreichte der mit der Min-P-Methode erhaltene Text eine Präferenzrate für menschliches Urteilsvermögen von 58,12 %, was viel höher ist als die Leistung anderer Methoden unter ähnlichen Einstellungen.

10 行代码让大模型数学提升 20%，“野路子”研究谷歌也测上了，主要作者全靠自学成才

Papieradresse:

https://arxiv.org/abs/2407.01082

GitHub:

https://github.com/menhguin/minp_paper/

Referenzlink:

https:// x.com/menhguin/status/1826132708508213629

Das obige ist der detaillierte Inhalt von10 Zeilen Code verbesserten die Mathematik großer Modelle um 20 %. Die Forschung zu „Yeluzi' wurde auch von Google getestet. Der Hauptautor ist alles Autodidakt.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055612 in Windows 10 nicht installieren?

4 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

Nordhold: Fusionssystem, erklärt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1675

CakePHP-Tutorial

1429

Laravel-Tutorial

1333

PHP-Tutorial

1278

C#-Tutorial

1257

Related knowledge

Tutorial zur Registrierung, Verwendung und Stornierung von Ouyi Okex -Konto Mar 31, 2025 pm 04:21 PM

In diesem Artikel wird ausführlich die Registrierungs-, Nutzungs- und Stornierungsverfahren von Ouyi Okex -Konto eingeführt. Um sich zu registrieren, müssen Sie die App herunterladen, Ihre Handynummer oder E-Mail-Adresse eingeben, um sich zu registrieren, und die authentifizierte Authentifizierung abschließen. Die Verwendung deckt die Betriebsschritte wie Anmeldung, Aufladung und Rückzug, Transaktion und Sicherheitseinstellungen ab. Um ein Konto zu kündigen, müssen Sie den Kundendienst von Ouyi Okex kontaktieren, die erforderlichen Informationen bereitstellen und auf die Bearbeitung warten und schließlich die Bestätigung des Konto -Stornierens erhalten. In diesem Artikel können Benutzer das vollständige Lebenszyklusmanagement von Ouyi Okex -Konto problemlos beherrschen und digitale Asset -Transaktionen sicher und bequem durchführen.

Wie optimieren Sie die Jieba -Word -Segmentierung, um den Effekt der Keyword -Extraktion von szenischen Spot -Kommentaren zu verbessern? Apr 01, 2025 pm 06:24 PM

Wie optimieren Sie die Jieba -Word -Segmentierung, um die Keyword -Extraktion von malerischen Spot -Kommentaren zu verbessern? Bei Verwendung von Jieba -Word -Segmentierung zur Verarbeitung szenischer Spot -Kommentardaten, wenn die Ergebnisse der Wortsegmentierung ignoriert werden ...

Die neuesten Updates zur Rangliste der ältesten virtuellen Währung Apr 22, 2025 am 07:18 AM

Die Rangliste der „ältesten“ virtuellen Währungen lautet wie folgt: 1. Bitcoin (BTC), der am 3. Januar 2009 herausgegeben wurde, ist die erste dezentrale digitale Währung. 2. Litecoin (LTC), das am 7. Oktober 2011 veröffentlicht wurde, ist als "leichte Version von Bitcoin" bekannt. 3. Ripple (XRP), das 2011 ausgestellt wurde, wurde für grenzüberschreitende Zahlungen ausgelegt. V. 5. Ethereum (ETH), die am 30. Juli 2015 veröffentlicht wurde, ist die erste Plattform, die intelligente Verträge unterstützt. 6. Tether (USDT), das 2014 ausgestellt wurde, ist der erste Stablecoin, der an den US -Dollar 1: 1 verankert ist. 7. Ada,

Web -IDE -Verzeichnisbaumeinzug: Warum unterscheiden sich die Rendering -Ergebnisse von Google Chrome und Firefox -Browsern? Apr 04, 2025 pm 10:15 PM

Über die Rendering -Unterschiede von Webide -Verzeichnisbäumen unter verschiedenen Browsern In diesem Artikel wird in Google Chrome und Firefox umbenannt ...

Wie löste ich das Problem des Navigators.Mediadevices, der auf der HTTP -Seite undefiniert zurückgibt? Apr 05, 2025 am 07:30 AM

Nach der Bearbeitung von H5 -Bereitstellung von Video -Medienakquisitionsproblemen bei der Bereitstellung von H5 -Anwendungen stoßen Sie manchmal Probleme mit der Seite "Seitenvidedien", insbesondere bei der Verwendung von Navigator.Medi ...

Unterstützen Google und Microsoft Authenticators Hotp -Algorithmen? Wie kann man das Problem lösen, das nicht unterstützt wird? Apr 02, 2025 pm 03:39 PM

Diskussion darüber, ob Google und Microsoft Authenticators Hotp-Algorithmen bei der Verwendung von Zwei-Faktor-Authentifizierung unterstützen, verwenden wir häufig Google und Microsoft ...

Zusammenfassung der Top Ten Apple -Version Download -Portale für digitale Währungsaustausch -Apps herunterladen Apr 22, 2025 am 09:27 AM

Bietet eine Vielzahl komplexer Handelsinstrumente und Marktanalysen. Es deckt mehr als 100 Länder ab, hat ein durchschnittliches tägliches Derivatvolumen von über 30 Milliarden US -Dollar, unterstützt mehr als 300 Handelspaare und den 200 -fachen Hebel, hat eine starke technische Stärke, eine riesige globale Benutzerbasis, bietet professionelle Handelsplattformen, sichere Speicherlösungen und reichhaltige Handelspaare.

So ziehen Sie Bargeld aus der Ouyi -Webversion ab Mar 27, 2025 pm 05:03 PM

Ouyi Web-Version Auszugsprozess: Melden Sie sich beim Konto an, geben Sie die Asset-Seite ein und wählen Sie die Auszahlungswährung und -methode (On-Chain- oder Fiat-Währung). Die Auszahlungen für die Kette müssen in die richtige Abhebungsadresse und das übereinstimmende Netzwerk gefüllt werden, und die Fiat-Währungsabhebungen müssen an ein Bankkonto gebunden sein. Senden Sie den Antrag nach Abschluss der Sicherheitsüberprüfung und warten Sie, bis die Überprüfung eintritt. Überprüfen Sie unbedingt die Adresse, das Netzwerk und andere Informationen und achten Sie auf die Bearbeitungsgebühr und den Mindestbetrag der Auszahlung.

See all articles