


Meta entwickelt die System 2-Destillationstechnologie und die Aufgabengenauigkeit des Llama 2-Dialogmodells liegt bei nahezu 100 %
Forscher sagen, dass die System-2-Destillation, wenn sie zu einem wichtigen Merkmal zukünftiger kontinuierlich lernender KI-Systeme werden kann, die Leistung von Inferenzaufgaben, bei denen System 2 schlecht abschneidet, weiter verbessern kann.
Wenn es um LLM-Strategien (Large Language Model) geht, gibt es im Allgemeinen zwei Typen: der eine ist das unmittelbare System 1 (schnelle Reaktion) und der andere ist das System 2 (langsames Denken).
Während System 2-Denken nachdenkliches Denken begünstigt, ermöglicht generatives Zwischendenken dem Modell (oder dem Menschen), zu argumentieren und zu planen, um eine Aufgabe erfolgreich abzuschließen oder auf Anweisungen zu reagieren. Beim Denken nach System 2 ist eine anstrengende geistige Aktivität erforderlich, insbesondere in Situationen, in denen System 1 (automatisches Denken) schief gehen kann.
Daher ist System 1 als eine Anwendung von Transformer definiert, die Antworten basierend auf Eingaben direkt generieren kann, ohne Zwischentoken zu generieren. System 2 ist als jede Methode definiert, die ein Zwischentoken generiert, einschließlich Methoden, die eine Suche oder mehrere Eingabeaufforderungen durchführen und dann schließlich eine Antwort generieren.
Die Branche hat eine Reihe verwandter System 2-Technologien vorgeschlagen, darunter Denkkette, Denkbaum, Denkkarte, Zweigauflösung und -zusammenführung, System 2 Attention, Rephrase and Respond (RaR) usw. Viele Methoden liefern dank dieser expliziten Inferenz genauere Ergebnisse, allerdings ist dies oft mit höheren Inferenzkosten und Antwortlatenz verbunden. Daher werden viele dieser Methoden in Produktionssystemen nicht verwendet und werden hauptsächlich in System 1 verwendet.
Für Menschen ist der Prozess des Lernens, Fähigkeiten von bewusst (System 2) auf automatisch (System 1) zu übertragen, in der Psychologie als Automatismus und die Nutzung des prozeduralen Gedächtnisses bekannt. Wenn Menschen beispielsweise zum ersten Mal mit dem Auto zur Arbeit fahren, investieren sie oft bewusste Anstrengungen in die Planung und Entscheidungsfindung, um an ihr Ziel zu gelangen. Nachdem der Fahrer diese Route wiederholt hat, wird der Fahrvorgang im Unterbewusstsein „kompiliert“. Ebenso können Sportarten wie Tennis zur „zweiten Natur“ werden.
In diesem Artikel untersuchen Forscher von Meta FAIR einen ähnlichen KI-Modellansatz. Diese Methode führt die Kompilierung auf unbeaufsichtigte Weise anhand einer Reihe unbeschrifteter Beispiele durch und wird als System-2-Destillation bezeichnet. Für jedes Beispiel wenden sie eine bestimmte System-2-Methode an und messen dann unbeaufsichtigt die Qualität der Vorhersagen.
Bei Aufgaben mit eindeutigen Antworten wenden Forscher beispielsweise Selbstkonsistenz an und führen mehrere Stichproben durch. Für ein ausreichend konsistentes Beispiel von System 2 gehen sie davon aus, dass dieses Ergebnis destilliert und dem Destillationspool hinzugefügt werden sollte. System 1 wird dann feinabgestimmt, um die Vorhersagen der Methode von System 2 auf den Pool der gesammelten Beispiele abzustimmen, jedoch ohne die Generierung von Zwischenschritten. Abbildung 1 unten zeigt den Gesamtprozess der Destillation von System 2 in System 1.
Die Forscher führten Experimente mit 4 verschiedenen System-2-LLM-Methoden und 5 verschiedenen Aufgaben durch. Es wurde festgestellt, dass unsere Methode das Denken von System 2 in verschiedenen Situationen in System 1 zurückdestillieren kann, manchmal sogar besser als die Ergebnisse von System 2-Lehrern. Darüber hinaus können diese Vorhersagen jetzt mit einem Bruchteil des Rechenaufwands erstellt werden.
Zum Beispiel fanden sie heraus, dass eine erfolgreiche Destillation auf Aufgaben des Umgangs mit voreingenommenen Meinungen oder irrelevanten Informationen (System 2 Aufmerksamkeit), der Klärung und Verbesserung von Antworten bei bestimmten Argumentationsaufgaben (RaR) und der feinkörnigen Bewertung von LLMs (Branchen-) anwendbar ist. Auflösen – zusammenführen).
Allerdings können nicht alle Aufgaben in System 1 destilliert werden, insbesondere komplexe mathematische Denkaufgaben, die eine Denkkette erfordern. Dies spiegelt sich auch beim Menschen wider, der bestimmte Aufgaben nicht ohne durchdachtes System-2-Argument ausführen kann.
Papieradresse: https://arxiv.org/pdf/2407.06023v2
System 2 zurück zu System 1 destillieren
Einrichtung: System 1- und System 2-Modelle
Angegeben eine Eingabe x, Die Forscher überlegten, ein einzelnes Modell einzurichten, in ihrem Fall ein großes Sprachmodell (LLM), das zwei Antwortmodi implementieren konnte:
System 1: Ausgabe y direkt generieren. Bei diesem Ansatz werden Schichten eines zugrunde liegenden autoregressiven neuronalen Netzwerks (Transformer) weitergeleitet, um Ausgabetokens zu generieren.
System 2. Solche Methoden verwenden den zugrunde liegenden Transformer, um jede Art von Zwischenausgabetoken z zu generieren, bevor das endgültige Antworttoken generiert wird, möglicherweise einschließlich mehrerer Aufrufe (Hinweise).
Formal behandeln Forscher das System-2-Modell S_II als eine Funktion, die LLM p_θ und die Eingabe x akzeptiert und LLM wiederholt aufrufen kann, um mithilfe eines bestimmten Algorithmus Zwischenmarker z zu generieren, und dann die Ausgabe y zurückgibt:
System 2-Methoden können mehrere Hinweise, Verzweigungen, Iterationen und Suchen umfassen, während LLM verwendet wird, um Zwischenergebnisse für die weitere Verarbeitung zu generieren. Im Gegensatz dazu berücksichtigt das System 1-Modell nur die ursprüngliche Eingabe, die gekennzeichnete Eingabe Allerdings sind sie anfällig für Rauschen: Einige dieser Antworten können von hoher Qualität sein, während andere von geringer Qualität oder falsch sein können. Für kurze Frage-Antwort- und Argumentationsaufgaben mit kurzen Antworten, oft mit einer eindeutig richtigen (aber unbekannten) Antwort, haben Forscher einen unbeaufsichtigten Managementschritt in Betracht gezogen, um die Qualität der Trainingsdaten zu verbessern. Sie betrachteten die folgenden zwei Varianten, die auf dem Selbstkonsistenzkriterium basieren:
Selbstkonsistenz unter Eingabestörung: Stören Sie die Eingabe x^i so, dass die Ausgabe unverändert bleibt, z. B. indem Sie die Reihenfolge der Multiple-Choice-Fragen in der Eingabeaufforderung ändern und S_II für jede Störung berechnen inkonsistent ist, verwerfen Sie das Beispiel.
Dann erhielt der Forscher den synthetischen Datensatz (X_S_II, Y_S_II), wobei X_S_II eine gefilterte Teilmenge von X ist und das Ziel Y_S_II ist. Der letzte Schritt besteht darin, diesen destillierten Trainingssatz zu verwenden, um eine überwachte Feinabstimmung des LLM mit den Parametern p_θ durchzuführen. Normalerweise initialisieren Forscher dieses Modell ausgehend vom aktuellen Zustand p_θ und setzen dann das Training mit neuen Datensätzen fort. Nach der Feinabstimmung erhielten sie ein LLM
- Experimentelle Ergebnisse
- Trainings- und Bewertungseinstellungen
- Die Forscher verwendeten Llama-2-70B-Chat als Basismodell für alle Experimente. Sie brauchten ein Basismodell mit genügend Leistung, um genauso effizient zu laufen wie ein System-2-Modell, und gleichzeitig über offene Gewichte zu verfügen, die fein abgestimmt werden konnten, weshalb diese Wahl getroffen wurde.
Für System 1 verwenden Forscher das anweisungsbereinigte Basismodell als Standardbasis für die Zero-Shot-Inferenz. Sie melden aufgabenspezifische Metriken für jede Aufgabe sowie die Metrik „#Tokens“, die die durchschnittliche Anzahl der pro Eingabe im Bewertungssatz generierten Token misst. Die System-2-Methode umfasst die Zwischen-Token-Generierung und die endgültige Ausgabe-Token-Generierung.
Umformulierung und Antwortdestillation
RaR ist ein System-2-Ansatz, der zunächst das Sprachmodell dazu auffordert, die ursprüngliche Frage auf eine noch ausführlichere Weise umzuformulieren, und dann eine Antwort basierend auf der umformulierten Frage generiert, mit dem Ziel, eine Antwort bereitzustellen bessere Ausgabe. Für die Destillationsdaten nutzten die Forscher die Selbstkonsistenz der Ausgabe, um einen System-2-Destillationsdatensatz für RaR zu erstellen. Für jede Eingabe führten sie acht Stichprobeniterationen bei der Aufgabe „Letzter Buchstabe“ und acht Stichprobeniterationen bei jeder Phase der Münzwurfaufgabe durch und verwendeten dann die Mehrheitsabstimmung, um die endgültige Ausgabe zu bestimmen.
Sehen wir uns zunächst die Aufgabe „Verkettung des letzten Buchstabens“ an. Diese Aufgabe konzentriert sich auf symbolisches Denken und erfordert, dass das Modell die letzten Buchstaben eines bestimmten Wortes verbindet. Die Gesamtergebnisse sind in der folgenden Tabelle 1 aufgeführt.
Das Basismodell von System 1 (Llama-2-70B-chat) erreicht eine Genauigkeit von 30,0 %, was niedriger ist als die 1-Schritt- und 2-Schritt-RaR-Methoden von System 2 (39,5 % bzw. 44,5 %). Durch die Rückdestillation der 2-Schritt-RaR-Methode in das System 1 Llama-2-70B-Chat-Modell durch diese unbeaufsichtigte Technik wird eine erstaunliche Genauigkeit von 98,0 % erreicht.
Im Vergleich zu Zero-Shot-Chat-Modellen kann das Modell anhand dieser Trainingsdaten effektiv lernen, wie die Aufgabe gelöst werden kann. Die Destillation von RaR übernimmt effektiv die Vorteile von System 2 und System 1 und behält den Genauigkeitsvorteil von System 2 bei, während die Inferenzkosten denen von System 1 entsprechen.
Kommen Sie zurück zur
Coin Flip Reasoning-Aufgabe
. Bei dieser symbolischen Denkaufgabe, die in der Forschung oft getestet wird, geht es darum, die endgültige Seite einer Münze (Kopf oder Zahl) zu bestimmen, ausgehend von einer bekannten Anfangsposition durch eine Reihe von Würfen, die in natürlicher Sprache beschrieben werden, wie zum Beispiel „Die Münze landet auf Kopf“. .Die Gesamtergebnisse sind in Tabelle 1 oben aufgeführt. Llama-2-70B-chat (Nullstichprobe) hat bei dieser Aufgabe eine Erfolgsquote von 56,1 %, während 1-Step und 2-Step RaR Erfolgsquoten von 58,5 % bzw. 77,2 % haben. Daher wurden mit dem 2-Schritte-Ansatz enorme Verbesserungen erzielt. Die Destillation von 2-Step RaR zurück zu System 1 Llama-2-70B-chat mithilfe unserer unbeaufsichtigten Technik führt zu Ergebnissen von 75,69 %.
Somit bietet das destillierte System 2-Modell eine vergleichbare Leistung wie System 2 (2 Step RaR), jedoch ohne die Notwendigkeit, das LLM-Programm mit 2 Hinweisen auszuführen.
System-2-Aufmerksamkeitsdestillation
Weston und Sukhbaatar (2023) schlugen System 2 Attention (S2A) vor, das dazu beiträgt, Fallstricke bei der Modellinferenz zu reduzieren, wie z. B. das Verlassen auf voreingenommene Informationen in der Eingabe oder die Konzentration auf irrelevanten Kontext.
Die Forscher überprüften die Machbarkeit der Destillation von S2A in System 1, insbesondere in die SycophancyEval-Frage-Antwort-Aufgabe, deren Eingabe verzerrte Informationen enthält, die bekanntermaßen die LLM-Leistung beeinträchtigen.
Die Ergebnisse sind in Tabelle 2 unten aufgeführt und geben die durchschnittliche Genauigkeit von 3 zufälligen Samen an. Wie erwartet weist das Basis-LLM (System1) im voreingenommenen Teil eine geringere Genauigkeit auf und ist anfällig für voreingenommene Eingaben. S2A verbessert die Leistung bei voreingenommenen Eingaben erheblich. Die Destillation mit System 2 weist eine ähnlich starke Leistung wie die Methoden mit System 2 auf.
Weitere experimentelle Ergebnisse finden Sie im Originalpapier.
Das obige ist der detaillierte Inhalt vonMeta entwickelt die System 2-Destillationstechnologie und die Aufgabengenauigkeit des Llama 2-Dialogmodells liegt bei nahezu 100 %. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen











Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Entwicklungsprozess der künstlichen Intelligenz war die Steuerung und Führung großer Sprachmodelle (LLM) schon immer eine der zentralen Herausforderungen, um sicherzustellen, dass diese Modelle beides sind kraftvoll und sicher dienen der menschlichen Gesellschaft. Frühe Bemühungen konzentrierten sich auf Methoden des verstärkenden Lernens durch menschliches Feedback (RL

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

Können Sprachmodelle wirklich zur Zeitreihenvorhersage verwendet werden? Gemäß Betteridges Gesetz der Schlagzeilen (jede Schlagzeile, die mit einem Fragezeichen endet, kann mit „Nein“ beantwortet werden) sollte die Antwort „Nein“ lauten. Die Tatsache scheint wahr zu sein: Ein so leistungsstarkes LLM kann mit Zeitreihendaten nicht gut umgehen. Zeitreihen, also Zeitreihen, beziehen sich, wie der Name schon sagt, auf eine Reihe von Datenpunktsequenzen, die in der Reihenfolge ihres Auftretens angeordnet sind. Die Zeitreihenanalyse ist in vielen Bereichen von entscheidender Bedeutung, einschließlich der Vorhersage der Ausbreitung von Krankheiten, Einzelhandelsanalysen, Gesundheitswesen und Finanzen. Im Bereich der Zeitreihenanalyse haben viele Forscher in letzter Zeit untersucht, wie man mithilfe großer Sprachmodelle (LLM) Anomalien in Zeitreihen klassifizieren, vorhersagen und erkennen kann. Diese Arbeiten gehen davon aus, dass Sprachmodelle, die gut mit sequentiellen Abhängigkeiten in Texten umgehen können, auch auf Zeitreihen verallgemeinert werden können.

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Einleitung In den letzten Jahren hat die Anwendung multimodaler großer Sprachmodelle (MLLM) in verschiedenen Bereichen bemerkenswerte Erfolge erzielt. Als Grundmodell für viele nachgelagerte Aufgaben besteht aktuelles MLLM jedoch aus dem bekannten Transformer-Netzwerk, das
