IVG: Integration menschlicher Werte in große Sprachmodelle zur Inferenzzeit
Forscher entwickelten Inferenzzeit-Ausrichtungsmethoden, um menschliche Werte zu integrieren, nachdem sie LLMs mithilfe der impliziten und expliziten Funktionen verfeinert hatten, ohne das Basismodell zu ändern.
Die Integration menschlicher Werte nach dem Training eines Modells mit lernbasierten Algorithmen erfordert eine Feinabstimmung von LLMs, was rechenintensiv und zeitaufwändig ist. Darüber hinaus führt es zu voreingenommenen und unerwünschten Reaktionen des Benutzers. Benötigt wird ein Modell, das sich in Echtzeit effizient an Benutzerpräferenzen anpassen kann, indem es Algorithmen integriert, die zum Zeitpunkt der Inferenz interferieren können. Diese Methode vermeidet ein wiederholtes erneutes Trainieren der Modelle für gewünschte Ergebnisse, indem das Basismodell eingefroren und der Rechenaufwand für die Feinabstimmung von LLMs reduziert wird.
Forscher entwickelten Inferenzzeit-Ausrichtungsmethoden, um menschliche Werte zu integrieren, nachdem sie LLMs mithilfe der impliziten und expliziten Funktionen verfeinert hatten, ohne das Basismodell zu ändern. Für die Token-Generierung werden implizite Funktionen verwendet, die wortweise Auswertungen durchführen und die Ausgabe mit der höchsten Wahrscheinlichkeit bevorzugen. Im Gegensatz dazu erfordern explizite Funktionen eine starre Struktur, um größere Textabschnitte auszuwerten und die folgende Wortfolge mit der höchsten Wahrscheinlichkeit zu generieren und dabei den Gesamtkontext beizubehalten. Die explizite Funktion ist unflexibel und rechenintensiv und kann die Optimierung auf Token-Ebene nicht berücksichtigen, während die implizite Funktion mit Problemen bei der Interpretierbarkeit konfrontiert ist und häufige Vorwärtsdurchläufe erfordert, was zu einer geringen Echtzeiteffizienz führt.
Um die Nachteile beider Funktionen anzugehen, kombiniert die vorgeschlagene Methode, Integrated Value Guidance (IVG), die Optimierung auf Token-Ebene der impliziten Funktion und die breitere Perspektive der expliziten Funktion. Es war in der Lage, Anpassungsherausforderungen und Kompromisse bei der Ausrichtungseffizienz abzuwehren, was zu geringeren Leistungsunterschieden führte und die Implementierung erleichterte. Diese Vorteile ermöglichten eine bessere Leistung bei Aufgaben wie der kontrollierten Sentimentgenerierung und -zusammenfassung. IVG könnte in Kombination mit kleineren Modellen wie GPT-2 mit höheren Modellen konkurrieren.
IVG integriert die beiden Wertfunktionen, die implizite und die explizite Funktion, um das Modell an menschlichen Werten auszurichten. Erstens werden durch tokenweises Sampling einzelne Token auf eine bestimmte Sequenzlänge abgestimmt, wodurch mehrere Sequenzen generiert werden. Anschließend vergleicht die Strahlsuche auf Chunk-Ebene die Wahrscheinlichkeiten dieser Sequenzen und wählt die Sequenz mit der höchsten Wahrscheinlichkeit aus. Obwohl diese Methode sicherstellt, dass die Ausgabe robuster ist, steigt die Rechenleistung während der Inferenzzeit aufgrund häufiger Vorwärtsdurchläufe, was zu langsameren Antworten führt.
Forscher haben zwei Versuchsanordnungen verwendet, um IVG zu evaluieren: 1. Kontrollierte Stimmungserzeugung und -zusammenfassung und 2. Befolgen von Anweisungen. Im ersten Fall wird die GPT-2-Modellfamilie verwendet, indem synthetische Datensätze aus einem Gold-Belohnungsmodell genutzt werden, um positive Filmrezensionen zu generieren und Reddit-Beiträge zusammenzufassen. Im Vergleich dazu erfordert das zweite ein auf Anweisungen abgestimmtes Modell, AlpacaEval 2.0. Es verwendet Tulu Guidance, das spezifische Modelle für implizite Funktionen verwendet und ein belohnungsbasiertes Modell für die explizite Funktion trainiert, und Ultraguidance, das ein Modell mit Direct Preference Optimization (DPO) für beide Funktionen verfeinert. GPT-4-turbo wurde als Referenz zur Bewertung der Reaktionen im zweiten Experiment verwendet, und IVG schnitt durchweg gut ab.
Zusätzlich zu diesen beiden Experimenten hat eine Ablationsstudie gezeigt, dass Chunk-Level Beam Search (CBS) eine höhere Geschwindigkeitseffizienz aufweist als Emulator Fine-Tuning (EFT), das die implizite Funktion zur Feinabstimmung verwendet. Diese Ergebnisse haben bewiesen, dass CBS in der Praxis viel besser anzuwenden ist.
Zusammenfassend lässt sich sagen, dass Integrated Value Guidance (IVG) einen neuartigen und effizienten Ansatz bietet, um große Sprachmodelle ausschließlich zum Zeitpunkt der Inferenz an menschlichen Präferenzen auszurichten und dabei die Komplexität der traditionellen Feinabstimmung zu umgehen. Durch die Nutzung impliziter und expliziter Wertfunktionen steigert IVG die Leistung sowohl beim tokenweisen Sampling als auch bei der Decodierung auf Chunk-Ebene, was sich in deutlichen Verbesserungen bei Sentiment-Generierung, Zusammenfassung und Befehlsfolgeaufgaben zeigt. Die Ergebnisse zeigten, dass IVG eine vielseitige Methode ist, die starke empirische Belege für ihre Fähigkeit liefert, bestehende Ansätze zu übertreffen, was sie zu einer vielversprechenden Lösung für die Feinabstimmung großer Modelle in realen Anwendungen macht.
Vergessen Sie nicht, unserem 50k ML SubReddit beizutreten
Möchten Sie eine Million KI-Leser erreichen? Arbeiten Sie hier mit uns
Das obige ist der detaillierte Inhalt vonIVG: Integration menschlicher Werte in große Sprachmodelle zur Inferenzzeit. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen











Der Kryptomarkt erlebt derzeit einen erheblichen Stimmungsumschwung, da abgedrängtes Kapital in den Markt eindringt. Projekte wie Near Protocol (NEAR) und Cardano (ADA) nehmen in Erwartung der bevorstehenden Rallye Fahrt auf.

Shytoshi Kusama, die rätselhafte Figur an der Spitze des Shiba Inu-Ökosystems, hat Spekulationen über eine bevorstehende Zusammenarbeit mit einem KI-Projekt ausgelöst.

Die „Based Agent“-Plattform von Coinbase und das Local AI SDK von Tether zielen darauf ab, die Entwicklung KI-gesteuerter Kryptowährungsagenten zu vereinfachen.

Apple ist bereit für die Markteinführung des iPhone 16 am Montag und bereitet sich auf einen großen Vorstoß zur generativen KI vor, indem es sie seinen iPhone-Nutzern vorstellt

Diese Partnerschaft stellt einen entscheidenden Fortschritt bei der Integration kommerzieller KI-Agenten und Automatisierung in den Web3-Bereich dar.

Investitionen in den Kryptomarkt können äußerst lukrativ sein, da neue Token gelegentlich eine jährliche Rendite von über 160.000 % für Anleger einbringen.

Da der Kryptowährungsmarkt mit schwankenden Trends konfrontiert ist, beginnen versierte Anleger, ihre Aufmerksamkeit auf neue Projekte zu richten, die Widerstandsfähigkeit und Wachstumspotenzial aufweisen. Es folgen Bedenken hinsichtlich der volatilen Preisentwicklung von Bitcoin (BTC).

XRP Healthcare, eine bahnbrechende Pharma- und Gesundheitsplattform auf dem XRP Ledger (XRPL), ist offiziell in die Welt der künstlichen Intelligenz (KI) eingetreten.