Heim > Technologie-Peripheriegeräte > KI > Jenseits der kausalen Sprachmodellierung

Jenseits der kausalen Sprachmodellierung

PHPz
Freigeben: 2025-02-25 18:28:09
Original
172 Leute haben es durchsucht

Neurips 2024 Spotlight: Optimierung des Sprachmodells Vorabbau mit selektiver Sprachmodellierung (SLM)

Vor kurzem habe ich ein faszinierendes Papier von Neurips 2024 vorgestellt, "Nicht alle Token sind das, was Sie für die Vorabstärke benötigen", in einer lokalen Lesegruppe. Dieses Papier befasst sich überraschend einfache, aber wirkungsvolle Frage: Ist die nächste Vorhersage für Jedes -Token während des Sprachmodells vorab vorab?

Der Standardansatz beinhaltet massive webkrapte Datensätze und die allgemeine Anwendung von Kausalsprachenmodellierung (CLM). Dieses Papier stellt diese Annahme in Frage und schlägt vor, dass einige Token den Lernprozess eher behindern als helfen. Die Autoren zeigen, dass die Fokussierung des Trainings auf "nützliche" Token die Dateneffizienz und die nachgeschaltete Aufgabenleistung erheblich verbessert. Dieser Beitrag fasst ihre Kernideen und wichtigen experimentellen Erkenntnisse zusammen.

Das Problem: Rauschen und ineffizientes Lernen

Große Webkorpora enthält zwangsläufig Geräusche. Während die Filterung auf Dokumentebene hilft, liegt das Rauschen häufig in einzelnen Dokumenten. Diese lauten Token verschwenden Computerressourcen und verwechseln möglicherweise das Modell.

Die Autoren analysierten die Lerndynamik auf Token-Ebene und kategorisieren Token anhand ihrer Querentropy-Verlust-Flugbahn:

  • l → L (niedrig bis niedrig): schnell gelernt und liefert einen minimalen weiteren Nutzen.
  • H → L (hoch bis niedrig): anfangs schwierig, aber schließlich gelernt; Wertvolle Lernmöglichkeiten darstellen.
  • H → H (hoch bis hoch): konstant schwierig, oft aufgrund der inhärenten Unvorhersehbarkeit (Aleatorikunsicherheit).
  • l → h (niedrig bis hoch): ursprünglich gelernt, wird aber später problematisch, möglicherweise aufgrund von Kontextverschiebungen oder Rauschen.
ihre Analyse zeigt, dass nur ein kleiner Teil der Token sinnvolle Lernsignale liefert.

Die Lösung: Selektive Sprachmodellierung (SLM)

Die vorgeschlagene Lösung, selektive Sprachmodellierung (SLM), bietet einen gezielteren Ansatz:

Beyond Causal Language Modeling

  1. Referenzmodell (RM) Training: Eine hochwertige Teilmenge der Daten wird verwendet, um ein vorgebildetes Basismodell zu optimieren und ein Referenzmodell (RM) zu erstellen. Dieser RM fungiert als Benchmark für Token "Nützlichkeit".

  2. Berechnung des Überschusses: Für jeden Token im großen Korpus wird der Unterschied zwischen dem Verlust des RM und dem aktuellen Trainingsmodellverlust (der "Überlust") berechnet. Ein höherer Überschussverlust zeigt ein höheres Verbesserungspotential.

  3. Selektive Backpropagation: Der vollständige Vorwärtspass wird an allen Token durchgeführt, aber die Backpropagation tritt nur für die oberen k% von Tokens mit dem höchsten Überschussverlust auf. Dies konzentriert sich dynamisch das Training auf die wertvollsten Token.

Experimentelle Ergebnisse: Signifikante Gewinne

SLM zeigt signifikante Vorteile in verschiedenen Experimenten:

Beyond Causal Language Modeling

  • mathematische Domäne: on openWebmath , SLM erzielte im Vergleich zu Standard-CLM bis zu 10% Leistungssteigerungen bei GSM8K und Mathematik-Benchmarks und erreichten 5-10-mal schneller. Ein 7B-Modell stimmte mit einem hochmodernen Modell mit nur 3% seiner Trainingstoken überein. Die Feinabstimmung steigerte die Leistung für ein 1B-Modell um über 40%.

  • Allgemeine Domäne: Auch bei einem starken vorgeborenen Basismodell ergab SLM eine durchschnittliche Verbesserung von ungefähr 5,8% gegenüber 15 Benchmarks, insbesondere in herausfordernden Domänen wie Code und Mathematik.

  • Selbstreferenzierung: Selbst ein schnell trainierter RM aus dem Rohkorpus lieferte einen Genauigkeitsschub von 2-3% und eine Reduzierung der verwendeten Token um 30-40%.

Schlussfolgerung und zukünftige Arbeit

Dieses Papier bietet wertvolle Einblicke in die Lerndynamik auf Token-Ebene und führt SLM ein, eine hochwirksame Technik zur Optimierung des Sprachmodells-Vorbaues. Zukünftige Forschungsanweisungen umfassen die Skalierung von SLM zu größeren Modellen, die Erforschung von API-basierten Referenzmodellen, das Integrieren von Verstärkungslernen, die Verwendung mehrerer Referenzmodelle und das Ausrichten von SLM mit Sicherheits- und Wahrhaftigkeit. Diese Arbeit stellt einen erheblichen Fortschritt im effizienten und effektiven Sprachmodell Training dar.

Das obige ist der detaillierte Inhalt vonJenseits der kausalen Sprachmodellierung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage