ChatGPT ist das neueste von OpenAI veröffentlichte Sprachmodell, das gegenüber seinem Vorgänger GPT-3 deutlich verbessert wurde. Ähnlich wie viele große Sprachmodelle kann ChatGPT Text in unterschiedlichen Stilen und für unterschiedliche Zwecke generieren, mit besserer Leistung in Bezug auf Genauigkeit, narrative Details und kontextbezogene Kohärenz. Es stellt die neueste Generation großer Sprachmodelle von OpenAI dar und wurde mit einem starken Fokus auf Interaktivität entwickelt.
OpenAI verwendet eine Kombination aus überwachtem Lernen und verstärkendem Lernen, um ChatGPT zu optimieren, wobei die Komponente des verstärkenden Lernens ChatGPT einzigartig macht. OpenAI verwendet die Trainingsmethode „Reinforcement Learning with Human Feedback“ (RLHF), die beim Training menschliches Feedback nutzt, um nicht hilfreiche, verzerrte oder voreingenommene Ergebnisse zu minimieren.
In diesem Artikel werden die Einschränkungen von GPT-3 und die Gründe, warum sie sich aus dem Trainingsprozess ergeben, analysiert. Außerdem wird das Prinzip von RLHF erläutert und erläutert, wie ChatGPT RLHF verwendet, um die Probleme von GPT-3 zu überwinden. Es werden die Einschränkungen dieser Methode untersucht.
„Konsistenz vs. Fähigkeit“ kann als eine abstraktere Analogie von „Genauigkeit vs. Präzision“ betrachtet werden.
Beim maschinellen Lernen bezieht sich die Fähigkeit eines Modells auf die Fähigkeit des Modells, eine bestimmte Aufgabe oder einen Satz von Aufgaben auszuführen. Die Leistungsfähigkeit eines Modells wird üblicherweise danach beurteilt, inwieweit es in der Lage ist, seine Zielfunktion zu optimieren. Beispielsweise könnte ein Modell zur Vorhersage von Marktpreisen eine objektive Funktion haben, die die Genauigkeit der Vorhersagen des Modells misst. Einem Modell wird dann eine hohe Leistungsfähigkeit zugeschrieben, wenn es Änderungen der Tarife im Laufe der Zeit genau vorhersagen kann.
Konsistenz konzentriert sich darauf, was das Modell tatsächlich tun soll, und nicht darauf, wofür es trainiert wurde. Die Frage, die es aufwirft, lautet: „Ob die Zielfunktion den Erwartungen entspricht“, basierend auf dem Ausmaß, in dem die Ziele und Verhaltensweisen des Modells den menschlichen Erwartungen entsprechen. Angenommen, Sie möchten einen Vogelklassifizierer trainieren, um Vögel als „Spatzen“ oder „Rotkehlchen“ zu klassifizieren, und dabei den logarithmischen Verlust als Trainingsziel verwenden. Das ultimative Ziel ist eine sehr hohe Klassifizierungsgenauigkeit. Das Modell weist möglicherweise einen geringen Protokollverlust auf, d. h. das Modell ist leistungsfähiger, aber weniger genau im Testsatz. Dies ist ein Beispiel für Inkonsistenz, bei der das Modell das Trainingsziel optimieren kann, aber nicht mit dem Endziel übereinstimmt.
Der ursprüngliche GPT-3 ist ein uneinheitliches Modell. Große Sprachmodelle wie GPT-3 werden auf großen Mengen an Textdaten aus dem Internet trainiert und sind in der Lage, menschenähnlichen Text zu generieren, aber sie erzeugen möglicherweise nicht immer eine Ausgabe, die den menschlichen Erwartungen entspricht. Tatsächlich ist ihre Zielfunktion eine Wahrscheinlichkeitsverteilung über eine Folge von Wörtern, die dazu dient, vorherzusagen, wie das nächste Wort in der Folge aussehen wird.
Aber in realen Anwendungen besteht der Zweck dieser Modelle darin, irgendeine Form wertvoller kognitiver Arbeit zu leisten, und es gibt einen klaren Unterschied zwischen der Art und Weise, wie diese Modelle trainiert werden, und der erwarteten Verwendung. Obwohl Maschinen, die statistische Verteilungen von Wortsequenzen berechnen, mathematisch gesehen eine effiziente Wahl für die Modellierung von Sprache sein können, erzeugen Menschen Sprache, indem sie die Textsequenzen auswählen, die am besten zu einer bestimmten Situation passen, und dabei auf bekanntes Hintergrundwissen und gesunden Menschenverstand zurückgreifen. Dies kann ein Problem sein, wenn Sprachmodelle in Anwendungen verwendet werden, die ein hohes Maß an Vertrauen oder Zuverlässigkeit erfordern, wie etwa Konversationssysteme oder intelligente persönliche Assistenten.
Während diese großen Modelle, die auf riesigen Datenmengen trainiert wurden, in den letzten Jahren extrem leistungsfähig geworden sind, bleiben sie in der Praxis oft hinter ihrem Potenzial zurück, um das Leben der Menschen zu erleichtern. Konsistenzprobleme in großen Sprachmodellen äußern sich oft wie folgt:
Aber wo genau kommt das Konsistenzproblem her? Ist die Art und Weise, wie das Sprachmodell selbst trainiert wird, anfällig für Inkonsistenzen?
Next-Token-Prediction und Masked-Language-Modeling sind die Kerntechnologien zum Trainieren von Sprachmodellen. Beim ersten Ansatz erhält das Modell eine Folge von Wörtern als Eingabe und wird gebeten, das nächste Wort in der Folge vorherzusagen. Wenn Sie dem Modell den Eingabesatz
„Die Katze saß auf dem“
bereitstellen, kann es das nächste Wort als „Matte“, „Stuhl“ oder „Boden“ vorhersagen, da diese Wörter im vorherigen Kontext „The“ sind Die Wahrscheinlichkeit des Auftretens ist hoch; das Sprachmodell ist tatsächlich in der Lage, die Wahrscheinlichkeit jedes möglichen Wortes angesichts der vorherigen Sequenz zu bewerten. Die
maskierte Sprachmodellierungsmethode ist eine Variante der Next-Token-Vorhersage, bei der einige Wörter im Eingabesatz durch spezielle Token ersetzt werden, wie z. B. [MASK]. Das Modell wird dann gebeten, das richtige Wort vorherzusagen, das an der Maskenposition eingefügt werden sollte. Wenn Sie dem Modell einen Satz geben:
„Die [MASKE] saß auf dem „
“, kann es vorhersagen, dass die Wörter, die in der MASKENposition ausgefüllt werden sollten, „Katze“ und „Hund“ sind.
Einer der Vorteile dieser objektiven Funktionen besteht darin, dass sie es dem Modell ermöglichen, die statistische Struktur der Sprache zu lernen, wie beispielsweise häufige Wortfolgen und Wortverwendungsmuster. Dies trägt häufig dazu bei, dass das Modell natürlicheren und flüssigeren Text generiert, und ist ein wichtiger Schritt in der Vortrainingsphase jedes Sprachmodells.
Allerdings können diese Zielfunktionen auch Probleme verursachen, vor allem weil das Modell nicht zwischen wichtigen Fehlern und unwichtigen Fehlern unterscheiden kann. Ein sehr einfaches Beispiel ist, wenn Sie den Satz in das Modell eingeben:
„Das Römische Reich [MASK] mit der Herrschaft des Augustus.“
Es kann vorhergesagt werden, dass die MASKE-Position mit „begann“ oder „besetzt werden sollte“ beendet“, da die Wahrscheinlichkeit des Auftretens dieser beiden Wörter sehr hoch ist.
Im Allgemeinen können diese Trainingsstrategien dazu führen, dass Sprachmodelle bei einigen komplexeren Aufgaben inkonsistent sind, da ein Modell, das nur darauf trainiert wird, das nächste Wort in einer Textsequenz vorherzusagen, möglicherweise nicht unbedingt seine Bedeutung erlernt . Daher lässt sich das Modell nur schwer auf Aufgaben übertragen, die ein tieferes Verständnis der Sprache erfordern.
Forscher untersuchen verschiedene Methoden, um das Konsistenzproblem in großen Sprachmodellen zu lösen. ChatGPT basiert auf dem ursprünglichen GPT-3-Modell, wurde jedoch mithilfe von menschlichem Feedback weiter trainiert, um den Lernprozess zu steuern und Inkonsistenzen im Modell zu beheben. Die verwendete spezifische Technologie ist die oben genannte RLHF. ChatGPT ist das erste Modell, das diese Technologie in realen Szenarien nutzt.
Wie nutzt ChatGPT menschliches Feedback, um das Konsistenzproblem zu lösen?
Der Ansatz besteht im Allgemeinen aus drei verschiedenen Schritten:
Schritt 1 wird nur einmal ausgeführt, während die Schritte 2 und 3 fortlaufend wiederholt werden können: Sammeln Sie weitere Vergleichsdaten zum aktuell besten Richtlinienmodell zum Trainieren eines neuen RM-Modells und trainieren Sie dann eine neue Richtlinie. Als nächstes werden die Details jedes Schritts detailliert beschrieben.
Schritt 1: Überwachtes Abstimmungsmodell
Der erste Schritt besteht darin, Daten zu sammeln, um ein überwachtes Richtlinienmodell zu trainieren.
Um einen universellen Chatbot wie ChatGPT zu erstellen, greifen Entwickler auf ein „Codemodell“ statt auf ein Nur-Text-Modell zurück.
Aufgrund der begrenzten Datenmenge in diesem Schritt kann das durch diesen Prozess erhaltene SFT-Modell diese Ausgabe ausgeben ist für den Benutzer immer noch kein Problem und es kommt häufig zu Inkonsistenzen. Das Problem hierbei ist, dass der Schritt des überwachten Lernens hohe Skalierbarkeitskosten mit sich bringt.
Um dieses Problem zu lösen, besteht die verwendete Strategie darin, den menschlichen Annotator anstelle des menschlichen Annotators die verschiedenen Ausgaben des SFT-Modells sortieren zu lassen, um das RM-Modell zu erstellen Erstellen Sie einen größeren kuratierten Datensatz.
Schritt 2: Training des Return-Modells
Dieser Schritt Ziel ist es, die Zielfunktion direkt aus den Daten zu lernen. Der Zweck dieser Funktion besteht darin, die Ausgaben des SFT-Modells zu bewerten, um darzustellen, wie wünschenswert diese Ausgaben für den Menschen sind. Dies spiegelt stark die spezifischen Vorlieben der ausgewählten menschlichen Kommentatoren und die gemeinsamen Richtlinien wider, denen sie folgen wollen. Letztendlich wird dieser Prozess zu einem System führen, das menschliche Präferenzen anhand der Daten nachahmt.
So funktioniert es:
Für den Annotator ist es einfacher, die Ausgabe zu sortieren, als mehr von vorne zu beginnen Der Prozess kann effizienter skaliert werden. In der Praxis beträgt die Anzahl der ausgewählten Eingabeaufforderungen etwa 30–40.000 und umfasst verschiedene Kombinationen sortierter Ausgaben.
Schritt 3: Feinabstimmung des SFT-Modells mithilfe des PPO-Modells
# 🎜🎜#In einem Schritt wird Verstärkungslernen angewendet, um das SFT-Modell durch Optimierung des RM-Modells abzustimmen. Der verwendete spezifische Algorithmus wird als proximale Richtlinienoptimierung (PPO) bezeichnet, und das Optimierungsmodell wird als proximales Richtlinienoptimierungsmodell bezeichnet.
Was ist ein PPO? Die Hauptmerkmale dieses Algorithmus sind wie folgt:
In diesem Schritt wird das PPO-Modell durch das SFT-Modell und die Wertfunktion durch das RM-Modell initialisiert. Bei dieser Umgebung handelt es sich um eine „Banditenumgebung“, die zufällige Eingabeaufforderungen generiert und Antworten auf die Eingabeaufforderungen erwartet. Für eine bestimmte Aufforderung und Antwort wird eine entsprechende Belohnung generiert (bestimmt durch das RM-Modell). Das SFT-Modell fügt jedem Token einen KL-Straffaktor hinzu, um eine Überoptimierung des RM-Modells zu vermeiden.
Da das Modell auf von Menschen kommentierten Eingaben trainiert wird, basiert der Kernteil der Bewertung auch auf menschlichen Eingaben, d. h. indem Annotatoren die Qualität der Modellausgabe bewerten. Um eine Überanpassung der Urteile der an der Trainingsphase beteiligten Annotatoren zu vermeiden, verwendete der Testsatz Eingabeaufforderungen von anderen OpenAI-Clients, die nicht in den Trainingsdaten auftauchten.
Das Modell wird anhand von drei Kriterien bewertet:
Das Modell wurde auch hinsichtlich der Leistung des Zero-Shot-Lernens bei traditionellen NLP-Aufgaben wie Beantwortung von Fragen, Leseverständnis und Zusammenfassung bewertet. Die Entwickler stellten fest, dass das Modell bei einigen dieser Aufgaben schlechter abschnitt als GPT-3 . Dies ist ein Beispiel für eine „Ausrichtungssteuer“, bei der Ausrichtungsverfahren, die auf dem Lernen zur Verstärkung menschlichen Feedbacks basieren, zu Lasten der Leistung bei bestimmten Aufgaben gehen.
Leistungsregression bei diesen Datensätzen kann durch einen Trick namens Pre-Training-Mixing stark reduziert werden: Während des Trainings des PPO-Modells über den Gradientenabstieg werden Gradientenaktualisierungen durch Mischen der Gradienten des SFT-Modells und des PPO-Modells berechnet.
Eine sehr offensichtliche Einschränkung dieser Methode besteht darin, dass die für das Feinabstimmungsmodell verwendeten Daten einer Vielzahl komplexer und subjektiver Faktoren im Prozess der Ausrichtung des Sprachmodells auf die menschliche Absicht unterliegen. Zu den Einflüssen gehören hauptsächlich:
Die Autoren von ChatGPT erkennen auch die offensichtliche Tatsache an, dass die am Trainingsprozess beteiligten Annotatoren und Forscher möglicherweise nicht alle potenziellen Endbenutzer von Sprachmodellen vollständig repräsentieren.
Zusätzlich zu dieser offensichtlichen „endogenen“ Einschränkung weist diese Methode noch einige andere Mängel und Probleme auf, die gelöst werden müssen:
Verwandte Lektüre:
Das obige ist der detaillierte Inhalt vonErklären Sie in einfachen Worten das Funktionsprinzip von ChatGPT. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!