Um große Sprachmodelle (LLMs) mit menschlichen Werten und Absichten in Einklang zu bringen, ist es entscheidend, menschliches Feedback zu lernen, um sicherzustellen, dass sie nützlich, ehrlich und harmlos sind. Im Hinblick auf die Ausrichtung von LLMs ist Reinforcement Learning basierend auf menschlichem Feedback (RLHF) ein effektiver Ansatz. Obwohl die Ergebnisse der RLHF-Methode ausgezeichnet sind, gibt es einige Herausforderungen bei der Optimierung. Dazu gehört das Training eines Belohnungsmodells und die anschließende Optimierung eines Richtlinienmodells, um diese Belohnung zu maximieren.
Einige Forscher haben kürzlich einfachere Offline-Algorithmen untersucht, darunter die direkte Präferenzoptimierung (DPO). DPO erlernt ein Richtlinienmodell direkt auf der Grundlage von Präferenzdaten, indem es die Belohnungsfunktion in RLHF parametrisiert, wodurch die Notwendigkeit eines expliziten Belohnungsmodells entfällt. Diese Methode ist einfach und stabil und hat in der Praxis breite Anwendung gefunden.
Bei der Verwendung von DPO besteht die Möglichkeit, implizite Belohnungen zu erhalten, darin, den Logarithmus des Antwortwahrscheinlichkeitsverhältnisses zwischen dem aktuellen Richtlinienmodell und dem überwachten Feinabstimmungsmodell (SFT) zu verwenden. Diese Art der Strukturierung der Belohnung stimmt jedoch nicht direkt mit der vom Bootstrap generierten Metrik überein, die ungefähr dem mittleren Logarithmus der vom Richtlinienmodell generierten Antwort entspricht. Dieser Unterschied zwischen Training und Inferenz kann zu einer schlechten Leistung führen.
Zu diesem Zweck schlugen Meng Rui, Assistenzprofessorin an der University of Virginia, Xia Mengzhou, Doktorandin an der Princeton University, und Chen Danqi, Assistenzprofessorin, gemeinsam SimPO vor – einen einfachen und effektiven Algorithmus zur Offline-Präferenzoptimierung . Der Entwurf von SimPO basiert auf der Modellierung des Optimierungsproblems als Minimierungsproblem einer kontinuierlichen Black-Box-Funktion. Durch kontinuierliche Iteration ist SimPO in der Lage, die beste Optimierungsstrategie zu finden und eine effiziente Konvergenz zu erreichen. Im Vergleich zu herkömmlichen Optimierungsalgorithmen
Der Kern des Algorithmus besteht darin, die Belohnungsfunktion im Präferenzoptimierungsziel mit zu kombinieren die Ausrichtung der Generationsindikatoren. SimPO besteht aus zwei Hauptkomponenten: (1) einer in der Länge normalisierten Belohnung, berechnet als durchschnittliche logarithmische Wahrscheinlichkeit aller Token in der Belohnung unter Verwendung des Richtlinienmodells (2) einer Ziel-Belohnungsdifferenz, um Gewinne und Verluste sicherzustellen. Die Belohnungsdifferenz zwischen den Antworten übersteigt diesen Unterschied.
Zusammenfassend weist SimPO die folgenden Eigenschaften auf:
Das Team führte eine umfangreiche Analyse durch und die Ergebnisse zeigten, dass SimPO Präferenzdaten effektiver nutzen kann, um die Wahrscheinlichkeit von Antworten mit hoher und niedriger Qualität im Validierungssatz genauer einzustufen, was eine bessere Strategie ermöglicht Modelle.
Wie in Tabelle 1 gezeigt, baute das Team ein Modell mit Spitzenleistung auf Basis von Llama3-8B-instruct, das auf AlpacaEval 2 eine längenkontrollierte Gewinnrate von 44,7 erreichte und damit die Bestenliste Claude 3 Opus übertraf; Darüber hinaus beträgt seine Win-Rate auf Arena-Hard 33,8, was es zum derzeit leistungsstärksten 8B-Open-Source-Modell macht.
Um das Verständnis zu erleichtern, wird im Folgenden zunächst der Hintergrund von DPO vorgestellt, dann der Unterschied zwischen der Belohnung von DPO und dem für die Generierung verwendeten Wahrscheinlichkeitsmaß erläutert und ein referenzfreies Verfahren vorgeschlagen alternative Belohnungsformel, um dieses Problem zu lindern. Schließlich wird das SimPO-Ziel abgeleitet, indem der Ziel-Belohnungsmargen-Term in das Bradley-Terry-Modell integriert wird.
Hintergrund: Direct Preference Optimization (DPO)
DPO ist eine der am häufigsten verwendeten Methoden zur Offline-Präferenzoptimierung. DPO lernt kein explizites Belohnungsmodell, sondern verwendet einen geschlossenen Ausdruck mit einer optimalen Richtlinie, um die Belohnungsfunktion r neu zu parametrisieren:
wobei π_θ das Richtlinienmodell und π_ref die Referenz ist Richtlinie (normalerweise das SFT-Modell) und Z (x) ist die Partitionsfunktion. Durch die Integration dieser Art der Belohnungsbildung in das Ranking-Ziel von Bradley-Terry (BT), , kann DPO ein Richtlinienmodell anstelle eines Belohnungsmodells verwenden, um die Wahrscheinlichkeit der Bevorzugung von Daten darzustellen, was zu folgendem Ziel führt:
wobei (x, y_w, y_l) das Präferenzpaar bestehend aus Prompt, gewinnender Antwort und verlierender Antwort aus dem Präferenzdatensatz D ist.
Eine einfache, referenzfreie Belohnung, abgestimmt auf die generierten Ergebnisse
Der Unterschied zwischen den Belohnungen des DPO und den generierten. Die Verwendung von Gleichung (1) als impliziter Belohnungsausdruck hat die folgenden Nachteile: (1) Die Trainingsphase erfordert ein Referenzmodell π_ref, was zusätzliche Speicher- und Rechenkosten mit sich bringt. (2) Die in der Trainingsphase optimierte Belohnung und die verwendete Generation zur Schlussfolgerung Es gibt Unterschiede zwischen den Indikatoren. Insbesondere wird in der Generierungsphase das Richtlinienmodell π_θ verwendet, um eine Sequenz zu generieren, die die durchschnittliche Log-Likelihood annähernd maximieren kann, die wie folgt definiert ist:
Es ist sehr schwierig, diesen Indikator während der Dekodierung direkt zu maximieren Für diesen Prozess können verschiedene Dekodierungsstrategien verwendet werden, wie zum Beispiel Greedy Decoding, Beam Search, Kernel Sampling und Top-K Sampling. Darüber hinaus wird diese Metrik häufig zur Einstufung von Optionen verwendet, wenn Sprachmodelle Mehrfachauswahlaufgaben ausführen. In DPO bedeutet das Erfüllen des Belohnungsrankings r (x, y_w) > r (x, y_l) für jedes Triplett (x, y_w, y_l) nicht unbedingt das Erfüllen des Wahrscheinlichkeitsrankings . Tatsächlich erfüllen beim Training mit DPO nur etwa 50 % der Triples im Holdout-Set diese Bedingung (siehe Abbildung 4b).
Construct-Belohnungen in der Länge normalisiert. Natürlich würden wir erwägen, p_θ in (3) zu verwenden, um die Belohnungskonstruktion in DPO zu ersetzen, damit sie mit der vom Bootstrap generierten Wahrscheinlichkeitsmetrik übereinstimmt. Dies führt zu einer in der Länge normalisierten Belohnung:
wobei β eine Konstante ist, die die Größe der Belohnungsdifferenz steuert. Das Team stellte fest, dass die Normalisierung von Belohnungen auf der Grundlage der Antwortlänge von entscheidender Bedeutung ist; die Entfernung des Längennormalisierungsterms aus der Belohnungsformel führte dazu, dass das Modell tendenziell längere, aber qualitativ schlechtere Sequenzen generierte. Dadurch entfällt die Notwendigkeit eines Referenzmodells beim Erstellen von Belohnungen, was zu einem höheren Speicher und einer höheren Recheneffizienz führt als Algorithmen, die auf Referenzmodellen basieren.
SimPO Target
Target Reward Difference. Darüber hinaus führte das Team einen Ziel-Belohnungsdifferenzterm γ > 0 für das Bradley-Terry-Ziel ein, um sicherzustellen, dass die Belohnung r (x, y_w) der erfolgreichen Antwort die Belohnung r (x, y_l) der fehlgeschlagenen Antwort übersteigt um mindestens γ:
Der Unterschied zwischen zwei Klassen beeinflusst bekanntermaßen die Generalisierungsfähigkeit des Klassifikators. In Standard-Trainingseinstellungen mit zufälliger Modellinitialisierung verbessert die Erhöhung der Zielspanne normalerweise die Generalisierungsleistung. Bei der Präferenzoptimierung gewinnen oder verlieren diese beiden Kategorien Antworten auf eine einzelne Eingabe.
In der Praxis beobachtete das Team, dass sich mit zunehmender Ziellücke zunächst die Generierungsqualität verbessert, wenn die Lücke jedoch zu groß wird, sinkt die Generierungsqualität. Eine Variante des DPO, der IPO, baut ebenfalls eine Zielprämienmarge ähnlich wie SimPO auf, sein Gesamtziel ist jedoch weniger effektiv als SimPO.
Ziele. Schließlich kann durch Einsetzen von Gleichung (4) in Gleichung (5) das SimPO-Ziel erhalten werden: Bedarf an Referenzmodellanforderungen. Darüber hinaus wird eine Zielbelohnungsdifferenz γ eingeführt, um Gewinn- und Verliererreaktionen zu trennen.
Versuchsaufbau
Modell- und Trainingsaufbau. Die Experimente des Teams verwendeten zwei Modelltypen, Llama3-8B und Mistral-7B, sowohl in der Basis- als auch in der Instruct-Einstellung.
Baseline-Methode. Tabelle 3 listet andere Methoden zur Offline-Präferenzoptimierung im Vergleich zu SimPO auf.
Experimentelle Ergebnisse
Hauptergebnisse und AblationsstudienSimPO schneidet immer deutlich besser ab als bisher existierende Präferenzoptimierungsmethoden. Wie in Tabelle 4 gezeigt, erzielen alle Präferenzoptimierungsalgorithmen zwar eine bessere Leistung als das SFT-Modell, einfaches SimPO erzielt jedoch bei allen Benchmarks und Einstellungen die beste Leistung. Ein so großer Vorsprung auf ganzer Linie zeigt die Robustheit und Wirksamkeit von SimPO.
Benchmark-Qualität variiert. Es ist zu beobachten, dass die Siegesrate bei Arena-Hard deutlich niedriger ist als die Siegesrate bei AlpacaEval 2, was darauf hindeutet, dass Arena-Hard ein schwierigerer Benchmark ist.
Instruct-Einstellungen bringen erhebliche Leistungssteigerungen. Wie man sehen kann, übertrifft das Instruct-Setup das Base-Setup in allen Benchmarks auf ganzer Linie. Dies kann auf die Verwendung qualitativ hochwertigerer SFT-Modelle zur Initialisierung durch diese Modelle und auf die höhere Qualität der von diesen Modellen generierten Präferenzdaten zurückzuführen sein.
Zwei Schlüsseldesigns von SimPO sind wichtig. Tabelle 5 zeigt die Ergebnisse von Ablationsexperimenten für jedes Schlüsseldesign von SimPO. (1) Entfernen Sie die Längennormalisierung in (4) (d. h. ohne LN); (2) Setzen Sie die Zielbelohnungsdifferenz in (6) auf 0 (d. h. γ = 0).
Das Entfernen der Längennormalisierung hat den größten Einfluss auf die Ergebnisse. Die Untersuchungen des Teams ergaben, dass dies dazu führte, dass das Modell lange und sich wiederholende Muster erzeugte, was die Gesamtqualität der Ausgabe erheblich beeinträchtigte. Das Setzen von γ auf 0 führt auch zu einer Leistungsverschlechterung von SimPO, was darauf hindeutet, dass 0 nicht die optimale Zielbelohnungsspanne ist.
Eine ausführlichere Analyse dieser beiden Designoptionen finden Sie im Originalpapier.
Eingehender Vergleich von DPO und SimPO
Abschließend verglich das Team DPO und SimPO auch umfassend aus vier Perspektiven: (1) Wahrscheinlichkeits-Längen-Korrelation, (2) Belohnungskonstruktion, (3 ) Belohnungsgenauigkeit, (4) algorithmische Effizienz. Die Ergebnisse zeigen, dass SimPO DPO in Bezug auf Genauigkeit und Effizienz übertrifft.
DPO-Belohnungen fördern implizit die Längennormalisierung.
Obwohl dem DPO-Belohnungsausdruck (ohne die Partitionsfunktion) ein expliziter Begriff für die Längennormalisierung fehlt, kann das Protokollverhältnis zwischen dem Richtlinienmodell und dem Referenzmodell implizit zum Ausgleich der Längenverzerrung beitragen. Wie in Tabelle 6 und Abbildung 4a gezeigt, verringert die Verwendung von DPO den Spearman-Korrelationskoeffizienten zwischen der durchschnittlichen Log-Likelihood und der Antwortlänge im Vergleich zur Methode ohne Längennormalisierung (bezeichnet als SimPO ohne LN). Allerdings zeigt es im Vergleich zu SimPO immer noch eine stärkere positive Korrelation.
DPO-Belohnung entspricht nicht der generierten Wahrscheinlichkeit.
Es gibt einen Unterschied zwischen der Belohnung des DPO und der durchschnittlichen Log-Likelihood-Metrik, die sich direkt auf die Generierung auswirkt. Wie in Abbildung 4b dargestellt, haben im Beispiel des UltraFeedback-Trainingssatzes, bei dem , fast die Hälfte der Datenpaare . Im Gegensatz dazu verwendet SimPO direkt die durchschnittliche Log-Likelihood (skaliert mit β) als Belohnungsausdruck, wodurch der Unterschied vollständig beseitigt wird.
DPO ist in Bezug auf die Belohnungsgenauigkeit nicht so gut wie SimPO.
Abbildung 4c vergleicht die Belohnungsgenauigkeit von SimPO und DPO und bewertet, wie gut ihre endgültig erlernten Belohnungen mit den Präferenzbezeichnungen auf dem Holdout-Set übereinstimmen. Es ist zu beobachten, dass die Belohnungsgenauigkeit von SimPO höher ist als die von DPO, was darauf hindeutet, dass das Belohnungsdesign von SimPO dazu beiträgt, eine effektivere Generalisierung und eine höhere Qualitätsgenerierung zu erreichen.
SimPO ist speichereffizienter und recheneffizienter als DPO.
Ein weiterer großer Vorteil von SimPO ist die Effizienz, schließlich wird kein Referenzmodell verwendet. Abbildung 4d zeigt die Gesamtlaufzeit und Spitzenspeichernutzung pro GPU für SimPO und DPO bei Verwendung des Llama3-Base-Setups auf einer 8×H100-GPU. SimPO reduziert die Laufzeit um etwa 20 % und die GPU-Speichernutzung um etwa 10 % im Vergleich zur ursprünglichen DPO-Implementierung, dank der Eliminierung von Vorwärtsdurchläufen beim Referenzmodell.
Für weitere Details lesen Sie bitte den Originalartikel.
Das obige ist der detaillierte Inhalt vonÜbertrifft DPO umfassend: Das Team von Chen Danqi schlug eine einfache Präferenzoptimierung (SimPO) vor und verfeinerte außerdem das stärkste 8B-Open-Source-Modell. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!