Heim web3.0 IVG: Integration menschlicher Werte in große Sprachmodelle zur Inferenzzeit

IVG: Integration menschlicher Werte in große Sprachmodelle zur Inferenzzeit

Oct 03, 2024 pm 03:16 PM
AI Integrated Value Guidance Implicit and Explicit Value Functions Token-Wise Sampling Chunk-Level Beam Search

Forscher entwickelten Inferenzzeit-Ausrichtungsmethoden, um menschliche Werte zu integrieren, nachdem sie LLMs mithilfe der impliziten und expliziten Funktionen verfeinert hatten, ohne das Basismodell zu ändern.

IVG: Integration menschlicher Werte in große Sprachmodelle zur Inferenzzeit

Die Integration menschlicher Werte nach dem Training eines Modells mit lernbasierten Algorithmen erfordert eine Feinabstimmung von LLMs, was rechenintensiv und zeitaufwändig ist. Darüber hinaus führt es zu voreingenommenen und unerwünschten Reaktionen des Benutzers. Benötigt wird ein Modell, das sich in Echtzeit effizient an Benutzerpräferenzen anpassen kann, indem es Algorithmen integriert, die zum Zeitpunkt der Inferenz interferieren können. Diese Methode vermeidet ein wiederholtes erneutes Trainieren der Modelle für gewünschte Ergebnisse, indem das Basismodell eingefroren und der Rechenaufwand für die Feinabstimmung von LLMs reduziert wird.

Forscher entwickelten Inferenzzeit-Ausrichtungsmethoden, um menschliche Werte zu integrieren, nachdem sie LLMs mithilfe der impliziten und expliziten Funktionen verfeinert hatten, ohne das Basismodell zu ändern. Für die Token-Generierung werden implizite Funktionen verwendet, die wortweise Auswertungen durchführen und die Ausgabe mit der höchsten Wahrscheinlichkeit bevorzugen. Im Gegensatz dazu erfordern explizite Funktionen eine starre Struktur, um größere Textabschnitte auszuwerten und die folgende Wortfolge mit der höchsten Wahrscheinlichkeit zu generieren und dabei den Gesamtkontext beizubehalten. Die explizite Funktion ist unflexibel und rechenintensiv und kann die Optimierung auf Token-Ebene nicht berücksichtigen, während die implizite Funktion mit Problemen bei der Interpretierbarkeit konfrontiert ist und häufige Vorwärtsdurchläufe erfordert, was zu einer geringen Echtzeiteffizienz führt.

Um die Nachteile beider Funktionen anzugehen, kombiniert die vorgeschlagene Methode, Integrated Value Guidance (IVG), die Optimierung auf Token-Ebene der impliziten Funktion und die breitere Perspektive der expliziten Funktion. Es war in der Lage, Anpassungsherausforderungen und Kompromisse bei der Ausrichtungseffizienz abzuwehren, was zu geringeren Leistungsunterschieden führte und die Implementierung erleichterte. Diese Vorteile ermöglichten eine bessere Leistung bei Aufgaben wie der kontrollierten Sentimentgenerierung und -zusammenfassung. IVG könnte in Kombination mit kleineren Modellen wie GPT-2 mit höheren Modellen konkurrieren.

IVG integriert die beiden Wertfunktionen, die implizite und die explizite Funktion, um das Modell an menschlichen Werten auszurichten. Erstens werden durch tokenweises Sampling einzelne Token auf eine bestimmte Sequenzlänge abgestimmt, wodurch mehrere Sequenzen generiert werden. Anschließend vergleicht die Strahlsuche auf Chunk-Ebene die Wahrscheinlichkeiten dieser Sequenzen und wählt die Sequenz mit der höchsten Wahrscheinlichkeit aus. Obwohl diese Methode sicherstellt, dass die Ausgabe robuster ist, steigt die Rechenleistung während der Inferenzzeit aufgrund häufiger Vorwärtsdurchläufe, was zu langsameren Antworten führt.

Forscher haben zwei Versuchsanordnungen verwendet, um IVG zu evaluieren: 1. Kontrollierte Stimmungserzeugung und -zusammenfassung und 2. Befolgen von Anweisungen. Im ersten Fall wird die GPT-2-Modellfamilie verwendet, indem synthetische Datensätze aus einem Gold-Belohnungsmodell genutzt werden, um positive Filmrezensionen zu generieren und Reddit-Beiträge zusammenzufassen. Im Vergleich dazu erfordert das zweite ein auf Anweisungen abgestimmtes Modell, AlpacaEval 2.0. Es verwendet Tulu Guidance, das spezifische Modelle für implizite Funktionen verwendet und ein belohnungsbasiertes Modell für die explizite Funktion trainiert, und Ultraguidance, das ein Modell mit Direct Preference Optimization (DPO) für beide Funktionen verfeinert. GPT-4-turbo wurde als Referenz zur Bewertung der Reaktionen im zweiten Experiment verwendet, und IVG schnitt durchweg gut ab.

Zusätzlich zu diesen beiden Experimenten hat eine Ablationsstudie gezeigt, dass Chunk-Level Beam Search (CBS) eine höhere Geschwindigkeitseffizienz aufweist als Emulator Fine-Tuning (EFT), das die implizite Funktion zur Feinabstimmung verwendet. Diese Ergebnisse haben bewiesen, dass CBS in der Praxis viel besser anzuwenden ist.

Zusammenfassend lässt sich sagen, dass Integrated Value Guidance (IVG) einen neuartigen und effizienten Ansatz bietet, um große Sprachmodelle ausschließlich zum Zeitpunkt der Inferenz an menschlichen Präferenzen auszurichten und dabei die Komplexität der traditionellen Feinabstimmung zu umgehen. Durch die Nutzung impliziter und expliziter Wertfunktionen steigert IVG die Leistung sowohl beim tokenweisen Sampling als auch bei der Decodierung auf Chunk-Ebene, was sich in deutlichen Verbesserungen bei Sentiment-Generierung, Zusammenfassung und Befehlsfolgeaufgaben zeigt. Die Ergebnisse zeigten, dass IVG eine vielseitige Methode ist, die starke empirische Belege für ihre Fähigkeit liefert, bestehende Ansätze zu übertreffen, was sie zu einer vielversprechenden Lösung für die Feinabstimmung großer Modelle in realen Anwendungen macht.

Vergessen Sie nicht, unserem 50k ML SubReddit beizutreten

Möchten Sie eine Million KI-Leser erreichen? Arbeiten Sie hier mit uns

Das obige ist der detaillierte Inhalt vonIVG: Integration menschlicher Werte in große Sprachmodelle zur Inferenzzeit. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1659
14
PHP-Tutorial
1258
29
C#-Tutorial
1232
24
Intel Markets (INTL) könnte die Krypto des Jahres sein, da Cardano (ADA)-Inhaber vor Hard Fork diversifizieren Intel Markets (INTL) könnte die Krypto des Jahres sein, da Cardano (ADA)-Inhaber vor Hard Fork diversifizieren Aug 25, 2024 am 03:49 AM

Der Kryptomarkt erlebt derzeit einen erheblichen Stimmungsumschwung, da abgedrängtes Kapital in den Markt eindringt. Projekte wie Near Protocol (NEAR) und Cardano (ADA) nehmen in Erwartung der bevorstehenden Rallye Fahrt auf.

Shytoshi Kusama gibt Hinweise auf eine bevorstehende Zusammenarbeit mit dem KI-Projekt NFA Labs Shytoshi Kusama gibt Hinweise auf eine bevorstehende Zusammenarbeit mit dem KI-Projekt NFA Labs Aug 09, 2024 am 06:27 AM

Shytoshi Kusama, die rätselhafte Figur an der Spitze des Shiba Inu-Ökosystems, hat Spekulationen über eine bevorstehende Zusammenarbeit mit einem KI-Projekt ausgelöst.

Coinbase und Tether stellen KI-gestützte Plattformen vor, um Entwickler im Blockchain-Bereich zu unterstützen Coinbase und Tether stellen KI-gestützte Plattformen vor, um Entwickler im Blockchain-Bereich zu unterstützen Oct 29, 2024 am 03:24 AM

Die „Based Agent“-Plattform von Coinbase und das Local AI SDK von Tether zielen darauf ab, die Entwicklung KI-gesteuerter Kryptowährungsagenten zu vereinfachen.

Apple AI wird ein Game-Changer sein, AI Coins-Rallye wahrscheinlich nächste Woche Apple AI wird ein Game-Changer sein, AI Coins-Rallye wahrscheinlich nächste Woche Sep 09, 2024 am 03:15 AM

Apple ist bereit für die Markteinführung des iPhone 16 am Montag und bereitet sich auf einen großen Vorstoß zur generativen KI vor, indem es sie seinen iPhone-Nutzern vorstellt

Launchpool inkubiert ONAI, ein KI-Ökosystem basierend auf der TON-Blockchain Launchpool inkubiert ONAI, ein KI-Ökosystem basierend auf der TON-Blockchain Aug 05, 2024 pm 03:32 PM

Diese Partnerschaft stellt einen entscheidenden Fortschritt bei der Integration kommerzieller KI-Agenten und Automatisierung in den Web3-Bereich dar.

Firecoin sammelt 1,2 Millionen US-Dollar, um KI-gestützte Token-Einblicke in das TON-Ökosystem zu bringen Firecoin sammelt 1,2 Millionen US-Dollar, um KI-gestützte Token-Einblicke in das TON-Ökosystem zu bringen Oct 25, 2024 am 12:12 AM

Investitionen in den Kryptomarkt können äußerst lukrativ sein, da neue Token gelegentlich eine jährliche Rendite von über 160.000 % für Anleger einbringen.

Sui (SUI) und GoodEgg (GEGG): Zwei vielversprechende Projekte, die man auf dem Kryptowährungsmarkt im September im Auge behalten sollte Sui (SUI) und GoodEgg (GEGG): Zwei vielversprechende Projekte, die man auf dem Kryptowährungsmarkt im September im Auge behalten sollte Sep 12, 2024 pm 09:01 PM

Da der Kryptowährungsmarkt mit schwankenden Trends konfrontiert ist, beginnen versierte Anleger, ihre Aufmerksamkeit auf neue Projekte zu richten, die Widerstandsfähigkeit und Wachstumspotenzial aufweisen. Es folgen Bedenken hinsichtlich der volatilen Preisentwicklung von Bitcoin (BTC).

XRP Healthcare betritt die KI-Welt und stellt KI-gestützten Chatbot zur Verbesserung der Benutzererfahrung vor XRP Healthcare betritt die KI-Welt und stellt KI-gestützten Chatbot zur Verbesserung der Benutzererfahrung vor Sep 11, 2024 am 09:01 AM

XRP Healthcare, eine bahnbrechende Pharma- und Gesundheitsplattform auf dem XRP Ledger (XRPL), ist offiziell in die Welt der künstlichen Intelligenz (KI) eingetreten.