Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

WBOY
Freigeben: 2024-06-01 16:41:36
Original
529 Leute haben es durchsucht

Um große Sprachmodelle (LLMs) mit menschlichen Werten und Absichten in Einklang zu bringen, ist es entscheidend, menschliches Feedback zu lernen, um sicherzustellen, dass sie nützlich, ehrlich und harmlos sind. Im Hinblick auf die Ausrichtung von LLMs ist Reinforcement Learning basierend auf menschlichem Feedback (RLHF) ein effektiver Ansatz. Obwohl die Ergebnisse der RLHF-Methode ausgezeichnet sind, gibt es einige Herausforderungen bei der Optimierung. Dazu gehört das Training eines Belohnungsmodells und die anschließende Optimierung eines Richtlinienmodells, um diese Belohnung zu maximieren.

Einige Forscher haben kürzlich einfachere Offline-Algorithmen untersucht, darunter die direkte Präferenzoptimierung (DPO). DPO erlernt ein Richtlinienmodell direkt auf der Grundlage von Präferenzdaten, indem es die Belohnungsfunktion in RLHF parametrisiert, wodurch die Notwendigkeit eines expliziten Belohnungsmodells entfällt. Diese Methode ist einfach und stabil und hat in der Praxis breite Anwendung gefunden.

Bei der Verwendung von DPO besteht die Möglichkeit, implizite Belohnungen zu erhalten, darin, den Logarithmus des Antwortwahrscheinlichkeitsverhältnisses zwischen dem aktuellen Richtlinienmodell und dem überwachten Feinabstimmungsmodell (SFT) zu verwenden. Diese Art der Strukturierung der Belohnung stimmt jedoch nicht direkt mit der vom Bootstrap generierten Metrik überein, die ungefähr dem mittleren Logarithmus der vom Richtlinienmodell generierten Antwort entspricht. Dieser Unterschied zwischen Training und Inferenz kann zu einer schlechten Leistung führen.

Zu diesem Zweck schlugen Meng Rui, Assistenzprofessorin an der University of Virginia, Xia Mengzhou, Doktorandin an der Princeton University, und Chen Danqi, Assistenzprofessorin, gemeinsam SimPO vor – einen einfachen und effektiven Algorithmus zur Offline-Präferenzoptimierung . Der Entwurf von SimPO basiert auf der Modellierung des Optimierungsproblems als Minimierungsproblem einer kontinuierlichen Black-Box-Funktion. Durch kontinuierliche Iteration ist SimPO in der Lage, die beste Optimierungsstrategie zu finden und eine effiziente Konvergenz zu erreichen. Im Vergleich zu herkömmlichen Optimierungsalgorithmen

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell


  • Papiertitel: SimPO: Simple Preference Optimization with a Reference-Free Reward
  • Papieradresse: https://arxiv.org /pdf /2405.14734
  • Code & Modell: https://github.com/princeton-nlp/SimPO

Der Kern des Algorithmus besteht darin, die Belohnungsfunktion im Präferenzoptimierungsziel mit zu kombinieren die Ausrichtung der Generationsindikatoren. SimPO besteht aus zwei Hauptkomponenten: (1) einer in der Länge normalisierten Belohnung, berechnet als durchschnittliche logarithmische Wahrscheinlichkeit aller Token in der Belohnung unter Verwendung des Richtlinienmodells (2) einer Ziel-Belohnungsdifferenz, um Gewinne und Verluste sicherzustellen. Die Belohnungsdifferenz zwischen den Antworten übersteigt diesen Unterschied.

Zusammenfassend weist SimPO die folgenden Eigenschaften auf:

  • Einfach: SimPO erfordert kein Referenzmodell und ist daher leichter und einfacher zu implementieren als andere Methoden wie DPO, die auf Referenzmodellen basieren.
  • Offensichtliche Leistungsvorteile: Obwohl SimPO einfach ist, ist seine Leistung deutlich besser als DPO und seine neuesten Varianten (wie das aktuelle referenzfreie Ziel ORPO). Wie in Abbildung 1 dargestellt. Und SimPO bietet stabile Vorteile über verschiedene Trainingseinstellungen und mehrere Befehlscompliance-Benchmarks hinweg (einschließlich AlpacaEval 2 und dem schwierigen Arena-Hard-Benchmark).
  • Minimale Längenausnutzung: Im Vergleich zu SFT- oder DPO-Modellen erhöht SimPO die Antwortlänge nicht wesentlich (siehe Tabelle 1), was bedeutet, dass seine Längenausnutzung minimal ist.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Das Team führte eine umfangreiche Analyse durch und die Ergebnisse zeigten, dass SimPO Präferenzdaten effektiver nutzen kann, um die Wahrscheinlichkeit von Antworten mit hoher und niedriger Qualität im Validierungssatz genauer einzustufen, was eine bessere Strategie ermöglicht Modelle.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Wie in Tabelle 1 gezeigt, baute das Team ein Modell mit Spitzenleistung auf Basis von Llama3-8B-instruct, das auf AlpacaEval 2 eine längenkontrollierte Gewinnrate von 44,7 erreichte und damit die Bestenliste Claude 3 Opus übertraf; Darüber hinaus beträgt seine Win-Rate auf Arena-Hard 33,8, was es zum derzeit leistungsstärksten 8B-Open-Source-Modell macht.

SimPO: Einfache Präferenzoptimierung

Um das Verständnis zu erleichtern, wird im Folgenden zunächst der Hintergrund von DPO vorgestellt, dann der Unterschied zwischen der Belohnung von DPO und dem für die Generierung verwendeten Wahrscheinlichkeitsmaß erläutert und ein referenzfreies Verfahren vorgeschlagen alternative Belohnungsformel, um dieses Problem zu lindern. Schließlich wird das SimPO-Ziel abgeleitet, indem der Ziel-Belohnungsmargen-Term in das Bradley-Terry-Modell integriert wird.

Hintergrund: Direct Preference Optimization (DPO)

DPO ist eine der am häufigsten verwendeten Methoden zur Offline-Präferenzoptimierung. DPO lernt kein explizites Belohnungsmodell, sondern verwendet einen geschlossenen Ausdruck mit einer optimalen Richtlinie, um die Belohnungsfunktion r neu zu parametrisieren:

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell


wobei π_θ das Richtlinienmodell und π_ref die Referenz ist Richtlinie (normalerweise das SFT-Modell) und Z (x) ist die Partitionsfunktion. Durch die Integration dieser Art der Belohnungsbildung in das Ranking-Ziel von Bradley-Terry (BT), Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell, kann DPO ein Richtlinienmodell anstelle eines Belohnungsmodells verwenden, um die Wahrscheinlichkeit der Bevorzugung von Daten darzustellen, was zu folgendem Ziel führt:

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

wobei (x, y_w, y_l) das Präferenzpaar bestehend aus Prompt, gewinnender Antwort und verlierender Antwort aus dem Präferenzdatensatz D ist.

Eine einfache, referenzfreie Belohnung, abgestimmt auf die generierten Ergebnisse

Der Unterschied zwischen den Belohnungen des DPO und den generierten. Die Verwendung von Gleichung (1) als impliziter Belohnungsausdruck hat die folgenden Nachteile: (1) Die Trainingsphase erfordert ein Referenzmodell π_ref, was zusätzliche Speicher- und Rechenkosten mit sich bringt. (2) Die in der Trainingsphase optimierte Belohnung und die verwendete Generation zur Schlussfolgerung Es gibt Unterschiede zwischen den Indikatoren. Insbesondere wird in der Generierungsphase das Richtlinienmodell π_θ verwendet, um eine Sequenz zu generieren, die die durchschnittliche Log-Likelihood annähernd maximieren kann, die wie folgt definiert ist:

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Es ist sehr schwierig, diesen Indikator während der Dekodierung direkt zu maximieren Für diesen Prozess können verschiedene Dekodierungsstrategien verwendet werden, wie zum Beispiel Greedy Decoding, Beam Search, Kernel Sampling und Top-K Sampling. Darüber hinaus wird diese Metrik häufig zur Einstufung von Optionen verwendet, wenn Sprachmodelle Mehrfachauswahlaufgaben ausführen. In DPO bedeutet das Erfüllen des Belohnungsrankings r (x, y_w) > r (x, y_l) für jedes Triplett (x, y_w, y_l) nicht unbedingt das Erfüllen des Wahrscheinlichkeitsrankings Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell. Tatsächlich erfüllen beim Training mit DPO nur etwa 50 % der Triples im Holdout-Set diese Bedingung (siehe Abbildung 4b).

Construct-Belohnungen in der Länge normalisiert. Natürlich würden wir erwägen, p_θ in (3) zu verwenden, um die Belohnungskonstruktion in DPO zu ersetzen, damit sie mit der vom Bootstrap generierten Wahrscheinlichkeitsmetrik übereinstimmt. Dies führt zu einer in der Länge normalisierten Belohnung:

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

wobei β eine Konstante ist, die die Größe der Belohnungsdifferenz steuert. Das Team stellte fest, dass die Normalisierung von Belohnungen auf der Grundlage der Antwortlänge von entscheidender Bedeutung ist; die Entfernung des Längennormalisierungsterms aus der Belohnungsformel führte dazu, dass das Modell tendenziell längere, aber qualitativ schlechtere Sequenzen generierte. Dadurch entfällt die Notwendigkeit eines Referenzmodells beim Erstellen von Belohnungen, was zu einem höheren Speicher und einer höheren Recheneffizienz führt als Algorithmen, die auf Referenzmodellen basieren.

SimPO Target

Target Reward Difference. Darüber hinaus führte das Team einen Ziel-Belohnungsdifferenzterm γ > 0 für das Bradley-Terry-Ziel ein, um sicherzustellen, dass die Belohnung r (x, y_w) der erfolgreichen Antwort die Belohnung r (x, y_l) der fehlgeschlagenen Antwort übersteigt um mindestens γ:

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Der Unterschied zwischen zwei Klassen beeinflusst bekanntermaßen die Generalisierungsfähigkeit des Klassifikators. In Standard-Trainingseinstellungen mit zufälliger Modellinitialisierung verbessert die Erhöhung der Zielspanne normalerweise die Generalisierungsleistung. Bei der Präferenzoptimierung gewinnen oder verlieren diese beiden Kategorien Antworten auf eine einzelne Eingabe.

In der Praxis beobachtete das Team, dass sich mit zunehmender Ziellücke zunächst die Generierungsqualität verbessert, wenn die Lücke jedoch zu groß wird, sinkt die Generierungsqualität. Eine Variante des DPO, der IPO, baut ebenfalls eine Zielprämienmarge ähnlich wie SimPO auf, sein Gesamtziel ist jedoch weniger effektiv als SimPO.

Ziele. Schließlich kann durch Einsetzen von Gleichung (4) in Gleichung (5) das SimPO-Ziel erhalten werden: Bedarf an Referenzmodellanforderungen. Darüber hinaus wird eine Zielbelohnungsdifferenz γ eingeführt, um Gewinn- und Verliererreaktionen zu trennen.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-ModellVersuchsaufbau

Modell- und Trainingsaufbau. Die Experimente des Teams verwendeten zwei Modelltypen, Llama3-8B und Mistral-7B, sowohl in der Basis- als auch in der Instruct-Einstellung.

Bewertungsbenchmark. Das Team verwendete drei der am häufigsten verwendeten offenen Compliance-Benchmarks: MT-Bench, AlpacaEval 2 und Arena-Hard v0.1. Diese Benchmarks bewerten die vielfältigen Konversationsfähigkeiten eines Modells bei verschiedenen Abfragen und wurden von der Community weitgehend übernommen. Tabelle 2 enthält einige Details.

Baseline-Methode. Tabelle 3 listet andere Methoden zur Offline-Präferenzoptimierung im Vergleich zu SimPO auf.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Experimentelle Ergebnisse

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Hauptergebnisse und Ablationsstudien

SimPO schneidet immer deutlich besser ab als bisher existierende Präferenzoptimierungsmethoden. Wie in Tabelle 4 gezeigt, erzielen alle Präferenzoptimierungsalgorithmen zwar eine bessere Leistung als das SFT-Modell, einfaches SimPO erzielt jedoch bei allen Benchmarks und Einstellungen die beste Leistung. Ein so großer Vorsprung auf ganzer Linie zeigt die Robustheit und Wirksamkeit von SimPO.

Benchmark-Qualität variiert. Es ist zu beobachten, dass die Siegesrate bei Arena-Hard deutlich niedriger ist als die Siegesrate bei AlpacaEval 2, was darauf hindeutet, dass Arena-Hard ein schwierigerer Benchmark ist.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-ModellInstruct-Einstellungen bringen erhebliche Leistungssteigerungen. Wie man sehen kann, übertrifft das Instruct-Setup das Base-Setup in allen Benchmarks auf ganzer Linie. Dies kann auf die Verwendung qualitativ hochwertigerer SFT-Modelle zur Initialisierung durch diese Modelle und auf die höhere Qualität der von diesen Modellen generierten Präferenzdaten zurückzuführen sein.

Zwei Schlüsseldesigns von SimPO sind wichtig. Tabelle 5 zeigt die Ergebnisse von Ablationsexperimenten für jedes Schlüsseldesign von SimPO. (1) Entfernen Sie die Längennormalisierung in (4) (d. h. ohne LN); (2) Setzen Sie die Zielbelohnungsdifferenz in (6) auf 0 (d. h. γ = 0).

Das Entfernen der Längennormalisierung hat den größten Einfluss auf die Ergebnisse. Die Untersuchungen des Teams ergaben, dass dies dazu führte, dass das Modell lange und sich wiederholende Muster erzeugte, was die Gesamtqualität der Ausgabe erheblich beeinträchtigte. Das Setzen von γ auf 0 führt auch zu einer Leistungsverschlechterung von SimPO, was darauf hindeutet, dass 0 nicht die optimale Zielbelohnungsspanne ist.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Eine ausführlichere Analyse dieser beiden Designoptionen finden Sie im Originalpapier.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Eingehender Vergleich von DPO und SimPO

Abschließend verglich das Team DPO und SimPO auch umfassend aus vier Perspektiven: (1) Wahrscheinlichkeits-Längen-Korrelation, (2) Belohnungskonstruktion, (3 ) Belohnungsgenauigkeit, (4) algorithmische Effizienz. Die Ergebnisse zeigen, dass SimPO DPO in Bezug auf Genauigkeit und Effizienz übertrifft.

DPO-Belohnungen fördern implizit die Längennormalisierung.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell


Obwohl dem DPO-Belohnungsausdruck Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell (ohne die Partitionsfunktion) ein expliziter Begriff für die Längennormalisierung fehlt, kann das Protokollverhältnis zwischen dem Richtlinienmodell und dem Referenzmodell implizit zum Ausgleich der Längenverzerrung beitragen. Wie in Tabelle 6 und Abbildung 4a gezeigt, verringert die Verwendung von DPO den Spearman-Korrelationskoeffizienten zwischen der durchschnittlichen Log-Likelihood und der Antwortlänge im Vergleich zur Methode ohne Längennormalisierung (bezeichnet als SimPO ohne LN). Allerdings zeigt es im Vergleich zu SimPO immer noch eine stärkere positive Korrelation.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

DPO-Belohnung entspricht nicht der generierten Wahrscheinlichkeit.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell


Es gibt einen Unterschied zwischen der Belohnung des DPO und der durchschnittlichen Log-Likelihood-Metrik, die sich direkt auf die Generierung auswirkt. Wie in Abbildung 4b dargestellt, haben im Beispiel des UltraFeedback-Trainingssatzes, bei dem Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell, fast die Hälfte der Datenpaare Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell. Im Gegensatz dazu verwendet SimPO direkt die durchschnittliche Log-Likelihood (skaliert mit β) als Belohnungsausdruck, wodurch der Unterschied vollständig beseitigt wird.

DPO ist in Bezug auf die Belohnungsgenauigkeit nicht so gut wie SimPO.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Abbildung 4c vergleicht die Belohnungsgenauigkeit von SimPO und DPO und bewertet, wie gut ihre endgültig erlernten Belohnungen mit den Präferenzbezeichnungen auf dem Holdout-Set übereinstimmen. Es ist zu beobachten, dass die Belohnungsgenauigkeit von SimPO höher ist als die von DPO, was darauf hindeutet, dass das Belohnungsdesign von SimPO dazu beiträgt, eine effektivere Generalisierung und eine höhere Qualitätsgenerierung zu erreichen.

SimPO ist speichereffizienter und recheneffizienter als DPO.

Übertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell

Ein weiterer großer Vorteil von SimPO ist die Effizienz, schließlich wird kein Referenzmodell verwendet. Abbildung 4d zeigt die Gesamtlaufzeit und Spitzenspeichernutzung pro GPU für SimPO und DPO bei Verwendung des Llama3-Base-Setups auf einer 8×H100-GPU. SimPO reduziert die Laufzeit um etwa 20 % und die GPU-Speichernutzung um etwa 10 % im Vergleich zur ursprünglichen DPO-Implementierung, dank der Eliminierung von Vorwärtsdurchläufen beim Referenzmodell.

Für weitere Details lesen Sie bitte den Originalartikel.


Das obige ist der detaillierte Inhalt vonÜbertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage