


10 Zeilen Code verbesserten die Mathematik großer Modelle um 20 %. Die Forschung zu „Yeluzi' wurde auch von Google getestet. Der Hauptautor ist alles Autodidakt.
Mit weniger als 10 Codezeilen können die mathematischen Fähigkeiten großer Modelle (GSM8k) um 20 % verbessert werden!
Mehrere unabhängige Wissenschaftler haben Verbesserungen für große Modellstichproben vorgeschlagen, was die Aufmerksamkeit der Open-Source-Community auf sich gezogen hat.
Derzeit hat diese Methode bei Mistral-7B Ergebnisse erzielt, und Tests an Llama3-70B sind ebenfalls im Gange.
Diese Methode wird als Min-P-Sampling bezeichnet und zielt darauf ab, die Kohärenz und Vielfalt des generierten Textes auszugleichen.
Einfach ausgedrückt ermöglicht es dem Modell, in verschiedenen Situationen unterschiedliche Eigenschaften auszuüben, z. B. die Aufrechterhaltung einer stabilen Leistung bei Sachthemen und die Kreativität in Szenarien wie dem Schreiben.
Derzeit hat diese Methode bei Mistral-7B Ergebnisse erzielt, und die Tests bei Llama-70B beginnen bald.
In dem Artikel erwähnte der Autor, dass diese Methode in der Open-Source-Community weit verbreitet ist.
Gleichzeitig verriet der Autor auch, dass auch Hersteller von Closed-Source-Modellen wie Anthropic und Google min-p getestet haben oder testen.
Die Nachricht wurde auch von Google bestätigt. Logan Kilpatrick, der Leiter der Entwickler-Community, der von OpenAI zu Google gewechselt ist, hat mit „On it“ geantwortet.
Abram Jackson, ein Forscher bei Microsoft Copilot, sagte nach der Lektüre, dass dies die erste Verbesserung sei, die er in Bezug auf das Token-Sampling im Inferenzprozess gesehen habe, und dass es in Zukunft noch viel Raum für Verbesserungen gebe.
Erwähnenswert ist, dass der Hauptautor dieser vielbeachteten Studie, Minh Nhat Nguyen, nie systematisch CS gelernt hat, sondern Autodidakt ist.
Mit Hilfe einer KI-Sicherheitsforschungsorganisation namens Apart Research haben Minh und andere Mitglieder des Teams das Projekt abgeschlossen.
Dynamische Anpassung des Sampling-Schwellenwerts
min-p ist eine dynamische Kürzungs-Sampling-Methode, deren Kern darin besteht, den minimalen Wahrscheinlichkeitsschwellenwert entsprechend der maximalen Wahrscheinlichkeit der Token-Verteilung bei jedem Schritt zu skalieren.
Der Zweck besteht hauptsächlich darin, die Kohärenz und Vielfalt des generierten Textes auszugleichen, insbesondere unter höheren Temperaturbedingungen.
Konkret führt min-p einen grundlegenden Wahrscheinlichkeitsschwellenwert p_base ein, der die Mindestwahrscheinlichkeitsanforderung für den Eintritt in den Stichprobenpool darstellt.
Beim Generieren von Token in jedem Schritt multipliziert min-p p_base mit der größten Token-Wahrscheinlichkeit p_max in der aktuellen Wahrscheinlichkeitsverteilung, um einen skalierten absoluten Schwellenwert p_scaled zu erhalten.
Nur Token mit einer Wahrscheinlichkeit größer oder gleich p_scaled können in den Stichprobenpool gelangen.
Wenn die Vorhersagewahrscheinlichkeit des Modells für ein bestimmtes Token sehr hoch ist (d. h. p_max ist sehr groß), ist auch der Wert von p_scaled sehr hoch, was dazu führt, dass der Stichprobenpool stark reduziert wird und die überwiegende Mehrheit der niedrig- Wahrscheinlichkeitstoken werden gefiltert, sodass nur wenige mit hoher Konfidenz übrig bleiben.
Wenn die Vorhersagewahrscheinlichkeiten des Modells für alle Token relativ nahe beieinander liegen (p_max ist niedriger), wird der Wert von p_scaled werden entsprechend auch niedriger, wodurch die Anforderungen an den Stichprobenpool gelockert werden. Durch die Einbeziehung von mehr Token mit mittlerer Wahrscheinlichkeit erhält das Modell mehr Raum für die Generierung vielfältigerer Inhalte.
Nach der Bestimmung des Probenpools skaliert min-p die Token-Wahrscheinlichkeitsverteilung entsprechend der Temperatur.
Es dividiert die logarithmische Wahrscheinlichkeit des Tokens durch einen Temperaturparameter τ und erhält nach der Normalisierung die skalierte Wahrscheinlichkeitsverteilung der Temperatur.
Ein τ-Wert größer als 1 führt zu einer flacheren Wahrscheinlichkeitsverteilung und erhöht die Wahrscheinlichkeit, dass Token mit geringer Wahrscheinlichkeit ausgewählt werden. Wenn
τ kleiner als 1 ist, wird die Verteilung schärfer, was die Vorteile von Token mit hoher Wahrscheinlichkeit verstärkt .
Schließlich wählt min-p gemäß der angepassten Wahrscheinlichkeitsverteilung zufällig den nächsten Token aus dem skalierten Stichprobenpool aus.
Stabilität und Kreativität, „Ich will alles“
Was bewirkt die Min-P-Methode? Der Autor verwendete Mistral-7B als Basismodell zum Testen. Schauen wir uns die Ergebnisse nach Szenario an.
In der Inferenzaufgabe verwendet der Autor den GPQA-Datensatz. Wenn die Temperatur 1 beträgt, können Sie sehen, dass min-p gegenüber dem vergangenen top-p einen leichten Vorteil hat.
Mit zunehmender Temperatur zeigt der GPQA-Score insgesamt einen Abwärtstrend, es ist jedoch zu beobachten, dass min-p deutlich langsamer abnimmt als top-p.
Der Abwärtstrend von Min-P wird erst deutlich, wenn die Temperatur 3 erreicht, wenn der Wert von Top-P nahe bei 0 liegt.
Mit anderen Worten: Im Vergleich zu Top-P behält Min-P die erforderliche Stabilität bei Inferenzaufgaben besser bei.
Auch mathematische Aufgaben müssen eine stabile Leistung gewährleisten. Hier hat der Autor den GSM8K-Datensatz zum Testen verwendet.
Das Ergebnis ist, dass der Min-P-Wert mit der Temperatur schneller abnimmt als bei der GPQA, aber immer noch langsamer als bei der Top-P-Methode.
Die dritte Aufgabenart ist kreatives Schreiben. Derzeit sind die Anforderungen an die Stabilität nicht so hoch, aber das Modell muss kreativer sein.
Dieser Test wurde mit dem AlpacaEval-Datensatz durchgeführt und die experimentellen Daten wurden von einem unabhängigen Gutachter in der Open-Source-Community erhalten.
Experimentelle Ergebnisse zeigen, dass bei den Einstellungen Temperatur=1,5 und min-p=0,1 die Leistung von min-p besonders herausragend ist und kreative Schreibinhalte generieren kann, die mit der Top-p-Methode nur schwer zu generieren sind.
Unter diesem Parameter erreichte der mit der Min-P-Methode erhaltene Text eine Präferenzrate für menschliches Urteilsvermögen von 58,12 %, was viel höher ist als die Leistung anderer Methoden unter ähnlichen Einstellungen.
Papieradresse:
https://arxiv.org/abs/2407.01082
GitHub:
https://github.com/menhguin/minp_paper/
Referenzlink:
https:// x.com/menhguin/status/1826132708508213629
Das obige ist der detaillierte Inhalt von10 Zeilen Code verbesserten die Mathematik großer Modelle um 20 %. Die Forschung zu „Yeluzi' wurde auch von Google getestet. Der Hauptautor ist alles Autodidakt.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen











In diesem Artikel wird ausführlich die Registrierungs-, Nutzungs- und Stornierungsverfahren von Ouyi Okex -Konto eingeführt. Um sich zu registrieren, müssen Sie die App herunterladen, Ihre Handynummer oder E-Mail-Adresse eingeben, um sich zu registrieren, und die authentifizierte Authentifizierung abschließen. Die Verwendung deckt die Betriebsschritte wie Anmeldung, Aufladung und Rückzug, Transaktion und Sicherheitseinstellungen ab. Um ein Konto zu kündigen, müssen Sie den Kundendienst von Ouyi Okex kontaktieren, die erforderlichen Informationen bereitstellen und auf die Bearbeitung warten und schließlich die Bestätigung des Konto -Stornierens erhalten. In diesem Artikel können Benutzer das vollständige Lebenszyklusmanagement von Ouyi Okex -Konto problemlos beherrschen und digitale Asset -Transaktionen sicher und bequem durchführen.

Wie optimieren Sie die Jieba -Word -Segmentierung, um die Keyword -Extraktion von malerischen Spot -Kommentaren zu verbessern? Bei Verwendung von Jieba -Word -Segmentierung zur Verarbeitung szenischer Spot -Kommentardaten, wenn die Ergebnisse der Wortsegmentierung ignoriert werden ...

Die Rangliste der „ältesten“ virtuellen Währungen lautet wie folgt: 1. Bitcoin (BTC), der am 3. Januar 2009 herausgegeben wurde, ist die erste dezentrale digitale Währung. 2. Litecoin (LTC), das am 7. Oktober 2011 veröffentlicht wurde, ist als "leichte Version von Bitcoin" bekannt. 3. Ripple (XRP), das 2011 ausgestellt wurde, wurde für grenzüberschreitende Zahlungen ausgelegt. V. 5. Ethereum (ETH), die am 30. Juli 2015 veröffentlicht wurde, ist die erste Plattform, die intelligente Verträge unterstützt. 6. Tether (USDT), das 2014 ausgestellt wurde, ist der erste Stablecoin, der an den US -Dollar 1: 1 verankert ist. 7. Ada,

Über die Rendering -Unterschiede von Webide -Verzeichnisbäumen unter verschiedenen Browsern In diesem Artikel wird in Google Chrome und Firefox umbenannt ...

Nach der Bearbeitung von H5 -Bereitstellung von Video -Medienakquisitionsproblemen bei der Bereitstellung von H5 -Anwendungen stoßen Sie manchmal Probleme mit der Seite "Seitenvidedien", insbesondere bei der Verwendung von Navigator.Medi ...

Diskussion darüber, ob Google und Microsoft Authenticators Hotp-Algorithmen bei der Verwendung von Zwei-Faktor-Authentifizierung unterstützen, verwenden wir häufig Google und Microsoft ...

Bietet eine Vielzahl komplexer Handelsinstrumente und Marktanalysen. Es deckt mehr als 100 Länder ab, hat ein durchschnittliches tägliches Derivatvolumen von über 30 Milliarden US -Dollar, unterstützt mehr als 300 Handelspaare und den 200 -fachen Hebel, hat eine starke technische Stärke, eine riesige globale Benutzerbasis, bietet professionelle Handelsplattformen, sichere Speicherlösungen und reichhaltige Handelspaare.

Ouyi Web-Version Auszugsprozess: Melden Sie sich beim Konto an, geben Sie die Asset-Seite ein und wählen Sie die Auszahlungswährung und -methode (On-Chain- oder Fiat-Währung). Die Auszahlungen für die Kette müssen in die richtige Abhebungsadresse und das übereinstimmende Netzwerk gefüllt werden, und die Fiat-Währungsabhebungen müssen an ein Bankkonto gebunden sein. Senden Sie den Antrag nach Abschluss der Sicherheitsüberprüfung und warten Sie, bis die Überprüfung eintritt. Überprüfen Sie unbedingt die Adresse, das Netzwerk und andere Informationen und achten Sie auf die Bearbeitungsgebühr und den Mindestbetrag der Auszahlung.
