Heim > web3.0 > Hauptteil

Instruktive Dekodierung verbessert anweisungsabgestimmte Sprachmodelle ohne Parameteraktualisierungen

Susan Sarandon
Freigeben: 2024-10-02 18:12:23
Original
272 Leute haben es durchsucht

Forscher von KAIST AI führten Instructive Decoding (ID) ein, eine Methode, die anweisungsabgestimmte LMs ohne Parameteraktualisierungen verbessert.

Instruktive Dekodierung verbessert anweisungsabgestimmte Sprachmodelle ohne Parameteraktualisierungen

Instruction-Tuned Language Models (LMs) lassen sich gut auf unbekannte Aufgaben in einer Zero-Shot-Umgebung verallgemeinern. Allerdings ist ihre Leistung bei Aufgaben außerhalb ihrer Trainingsdaten oft begrenzt. Obwohl diese LMs auf großen Datensätzen basieren und über Milliarden von Parametern verfügen, zeichnen sie sich durch In-Context Learning (ICL) aus, bei dem sie Antworten auf einige wenige Beispiele generieren können, ohne dass sie erneut trainiert werden müssen. Allerdings schränkt der Umfang des Trainingsdatensatzes seine Wirksamkeit bei unbekannten Aufgaben ein. Techniken wie Prompt Engineering und Output-Diversifizierung können zur Leistungsverbesserung beitragen, erfordern jedoch einen erheblichen Aufwand. Neuere Forschungen untersuchen die Anwendung des kognitiven Ankereffekts auf LMs und legen nahe, dass die Betonung anfänglicher Eingabeaufforderungen aufgabenspezifische Reaktionen verbessern und die Treue zu Anweisungen verbessern kann.

In dieser Arbeit stellen Forscher von KAIST AI Instructive Decoding (ID) vor, eine Methode, die anweisungsabgestimmte LMs ohne Parameteraktualisierungen verbessert. Inspiriert durch verrauschte Überwachungstechniken verwendet ID „verrauschte Anweisungen“, bei denen es sich um veränderte Versionen der ursprünglichen Anweisungen handelt, um einen kontrastierenden Ansatz für die Vorhersage des nächsten Tokens zu schaffen. Durch die Lenkung der Modellausgabe in verschiedene Richtungen, insbesondere durch die Verwendung „entgegengesetzter“ Anweisungen, verbessert ID die Modellleistung über alle Aufgaben hinweg. Experimente zeigen deutliche Genauigkeitsgewinne, wobei kleinere, durch ID verbesserte Modelle die größeren übertreffen. Diese Methode verbessert die Befolgung von Anweisungen und verbessert die allgemeine Antwortqualität, wodurch ihre Wirksamkeit bei verschiedenen Modellen und Aufgaben nachgewiesen wird.

Das Ziel der Anweisungsoptimierung besteht darin, vorab trainierte LMs so abzustimmen, dass sie Anweisungen in natürlicher Sprache besser befolgen können, was die Verallgemeinerung auf unsichtbare Aufgaben verbessert, insbesondere in Zero-Shot-Szenarien. Durch die Erweiterung der Vielfalt und Komplexität der Trainingsaufgaben wird diese Fähigkeit verbessert, obwohl die Modelle häufig stark auf vorab trainiertem Wissen basieren. Frühere Untersuchungen haben gezeigt, dass LMs sensibel auf vertraute Anweisungen reagieren, selbst wenn sie mit irreführenden Anweisungen umgehen. Diese Sensibilität kann durch Kontrasttechniken genutzt werden. Kontrast bei der Textgenerierung, wie z. B. Contrastive Decoding, vergleicht Ausgaben verschiedener Modelle oder Eingaben, um die Leistung zu verbessern. Diese Studie erweitert diese Ideen, indem sie verrauschte Anweisungen verwendet, um die Generalisierung in auf Anweisungen abgestimmten LMs zu fördern.

Instructive Decoding verbessert die Antwortgenerierung in anweisungsabgestimmten Modellen durch Gegenüberstellung von Ausgaben, die aus verrauschten Anweisungen generiert werden. Es baut auf dem Ankereffekt auf, bei dem anfängliche Informationen nachfolgende Urteile beeinflussen und Unterschiede zwischen den Antworten, die auf der Grundlage ursprünglicher und geänderter Anweisungen generiert wurden, nutzen. Die Methode verwendet verrauschte Befehlsvarianten wie abgeschnittene, gemischte oder zufällige Wörter, um das Modell in die Irre zu führen und gleichzeitig die Aufgabentreue sicherzustellen. Durch den Vergleich von Logits von ursprünglichen und verrauschten Anweisungen während der Dekodierung hilft Instructive Decoding den Modellen, Verzerrungen zu korrigieren und Antworten zu erzeugen, die besser auf die beabsichtigten Anweisungen abgestimmt sind, wodurch ihre Leistung bei unsichtbaren Aufgaben verfeinert wird.

Der Versuchsaufbau verwendet die Datensätze SUPNATINST und UNNATINST und evaluiert Modelle wie Tk-Instruct, Alpaca und T0 für Aufgaben wie Grammatikfehlerkorrektur und Textual Entailment. Die Metriken Rouge-L, Exact Match (EM), Label Adherence (LA) und Label Coherence (LC) bewerten die Leistung. ID verbessert kontinuierlich die Ergebnisse, insbesondere bei größeren Modellen wie Tk-XXL, indem es LA und LC verbessert. Interessanterweise verbessern verrauschte Anweisungen die Ausgabequalität mit ID trotz der Verschlechterung der Grundleistung. Obwohl die aufgabenspezifische Leistung unterschiedlich ist, erweist sich die „entgegengesetzte“ Anweisungsvariante bei allen Aufgaben als robust. Insgesamt zeigt ID erhebliche Zuwächse bei allen Modellgrößen und Aufgabentypen.

Die Studie untersucht die Herausforderungen der bisher unbekannten Aufgabenverallgemeinerung in auf Anweisungen abgestimmten Sprachmodellen. Die vorgeschlagene Methode ID nutzt den Ankereffekt mithilfe „verrauschter“ Anweisungen, um inhärenten Modellverzerrungen entgegenzuwirken. Durch den Vergleich von Vorhersagen mit solchen, die aus geänderten Anweisungen generiert werden, verbessert ID die Modellleistung, insbesondere bei der „entgegengesetzten“ verrauschten Variante, die am stärksten von der ursprünglichen Eingabe abweicht. Empirische Ergebnisse zeigen die Wirksamkeit von ID über mehrere Aufgaben hinweg, mit bemerkenswerten Verbesserungen bei der Vorhersagevielfalt. Der Ansatz erfordert keine zusätzlichen Parameteraktualisierungen, was ihn zu einem praktischen Werkzeug zur Verbesserung der Befehlsfolge in Sprachmodellen macht.

Schauen Sie sich das Papier an. Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, uns auf Twitter zu folgen und unserem Telegram-Kanal und unserer LinkedIn-Gruppe beizutreten. Wenn Ihnen unsere Arbeit gefällt, werden Sie unseren Newsletter lieben.

Vergessen Sie nicht, unserem 50k ML SubReddit beizutreten

Das obige ist der detaillierte Inhalt vonInstruktive Dekodierung verbessert anweisungsabgestimmte Sprachmodelle ohne Parameteraktualisierungen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage