Mit der Entwicklung großer Sprachmodelle (LLM) stehen Praktiker vor größeren Herausforderungen. Wie vermeide ich schädliche Antworten von LLM? Wie lösche ich urheberrechtlich geschützte Inhalte in Trainingsdaten schnell? Wie kann man LLM-Halluzinationen (falsche Fakten) reduzieren? Wie kann man LLM nach Änderungen der Datenrichtlinien schnell iterieren? Diese Probleme sind für den sicheren und vertrauenswürdigen Einsatz von LLM angesichts des allgemeinen Trends immer ausgereifterer rechtlicher und ethischer Compliance-Anforderungen für künstliche Intelligenz von entscheidender Bedeutung.
Die aktuelle Mainstream-Lösung in der Branche besteht darin, die Vergleichsdaten (positive Proben und negative Proben) mithilfe von Verstärkungslernen zu optimieren, um LLM auszurichten (Alignment), um sicherzustellen, dass die Ausgabe von LLM den menschlichen Erwartungen und Werten entspricht. Dieser Ausrichtungsprozess wird jedoch häufig durch Datenerfassungs- und Rechenressourcen eingeschränkt. ByteDance hat eine Methode für LLM vorgeschlagen, um Vergessenslernen für die Ausrichtung durchzuführen. In diesem Artikel wird untersucht, wie bei LLM „Vergessen“-Operationen durchgeführt werden, d. h. schädliche Verhaltensweisen oder maschinelles Verlernen (maschinelles Verlernen) vergessen werden. Der Autor zeigt die offensichtlichen Auswirkungen des Vergessenslernens auf drei LLM-Ausrichtungsszenarien: (1) Entfernen schädlicher Inhalte; ) Es werden nur negative Proben (schädliche Proben) benötigt, die viel einfacher zu sammeln sind als die von RLHF geforderten positiven Proben (hochwertige manuelle handschriftliche Ausgabe) (z. B. Red-Team-Tests oder Benutzerberichte). (2) Rechenaufwand Niedrig; (3) Das Vergessen des Lernens ist besonders effektiv, wenn bekannt ist, welche Trainingsbeispiele zu schädlichen Verhaltensweisen von LLM führen.
Das Argument des Autors ist, dass Praktiker mit begrenzten Ressourcen lieber damit aufhören sollten, schädliche Ergebnisse zu produzieren, anstatt zu versuchen, übermäßig idealisierte Ergebnisse zu erzielen und zu vergessen, dass Lernen eine Annehmlichkeit ist. Obwohl es nur negative Stichproben gibt, zeigen Untersuchungen, dass Vergessenslernen mit nur 2 % der Rechenzeit immer noch eine bessere Ausrichtungsleistung erzielen kann als Verstärkungslernen und Hochtemperatur-Hochfrequenzalgorithmen. Papieradresse: https: //arxiv.org/abs/2310.10683
code Adresse: https://github.com/kevinyaobytedance/llm_unlearn
uSage -Szenarien
Im Feinabstimmungsschritt t wird das LLM wie folgt aktualisiert:
Der erste Verlust ist der Gradientenabstieg (Gradientenabstieg), mit dem Zweck des Vergessens schädlicher Proben:
ist eine schädliche Aufforderung (Eingabeaufforderung) und ist die entsprechende schädliche Antwort. Der Gesamtverlust erhöht umgekehrt den Verlust schädlicher Proben, was dazu führt, dass LLM schädliche Proben „vergisst“.
Der zweite Verlust entsteht durch zufällige Nichtübereinstimmungen, was erfordert, dass LLM irrelevante Reaktionen bei Vorhandensein schädlicher Hinweise vorhersagt. Dies ähnelt der Etikettenglättung [2] bei der Klassifizierung. Der Zweck besteht darin, dass LLM schädliche Ausgaben bei schädlichen Eingabeaufforderungen besser vergisst. Gleichzeitig haben Experimente bewiesen, dass diese Methode die Ausgabeleistung von LLM unter normalen Umständen verbessern kann. Im Vortraining kann die Berechnung der KL-Divergenz auf LLM die LLM-Leistung besser aufrechterhalten.
Darüber hinaus erfolgt der gesamte Auf- und Abstieg des Gradienten nur auf dem Ausgabeteil (y), nicht auf dem Spitze-Ausgabe-Paar (x, y) wie bei RLHF.
Anwendungsszenarien: Vergessen schädlicher Inhalte usw.
In diesem Artikel werden PKU-SafeRLHF-Daten als vergessene Daten und TruthfulQA als normale Daten verwendet. Der Inhalt von Abbildung 2 muss neu geschrieben werden und zeigt die Ausgabe von LLM auf Vergessene schädliche Aufforderungen, nachdem vergessen wurde, die schädliche Rate zu lernen. Die in diesem Artikel verwendeten Methoden sind GA (Gradientenaufstieg und GA+Mismatch: Gradientenaufstieg + zufällige Nichtübereinstimmung). Die schädliche Rate nach vergessenem Lernen liegt nahe bei Null.
Der Inhalt des zweiten Bildes muss neu geschrieben werden
Tabelle 1 zeigt die generierten Proben. Es ist ersichtlich, dass es sich bei den von LLM generierten Beispielen unter der schädlichen Eingabeaufforderung um bedeutungslose Zeichenfolgen handelt, dh um harmlose Ausgaben.
Tabelle 1
In anderen Szenarien, wie dem Vergessen verletzender Inhalte und dem Vergessen von Halluzinationen, wird die Anwendung dieser Methode im Originaltext ausführlich beschrieben
RLHF-Vergleich
Was umgeschrieben werden muss, ist: Die zweite Tabelle zeigt den Vergleich zwischen dieser Methode und RLHF, die positive Beispiele verwendet, während die vergessene Lernmethode nur negative Beispiele verwendet, sodass die Methode am Anfang im Nachteil ist. Aber trotzdem kann das Vergessenslernen immer noch eine ähnliche Ausrichtungsleistung wie RLHF erzielen Diese Methode benötigt nur 2 % der Berechnungszeit von RLHF.
Was umgeschrieben werden muss: Das vierte Bild
Selbst bei nur negativen Stichproben kann die Methode mit Vergessenslernen eine harmlose Rate erreichen, die mit RLHF vergleichbar ist, und nur 2 % der Rechenleistung verbrauchen. Wenn das Ziel also darin besteht, die Ausgabe schädlicher Inhalte zu stoppen, ist Vergessenslernen effizienter als RLHF. Die Ergebnisse zeigen, dass das Erlernen des Vergessens ein vielversprechender Ansatz zur Ausrichtung ist, insbesondere wenn die Fachkräfte nicht über ausreichend Ressourcen verfügen. Das Papier zeigt drei Situationen: Vergessenes Lernen kann erfolgreich schädliche Antworten löschen, verletzende Inhalte löschen und Illusionen beseitigen. Untersuchungen zeigen, dass das Vergessenslernen selbst bei nur negativen Stichproben immer noch ähnliche Ausrichtungseffekte wie RLHF erzielen kann, wobei nur 2 % der Berechnungszeit von RLHF benötigt werden
Das obige ist der detaillierte Inhalt von2 % der Rechenleistung von RLHF werden verwendet, um schädliche Ausgaben von LLM zu eliminieren, und Byte veröffentlicht vergessliche Lerntechnologie. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!