Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago-KI-php.cn

Inhaltsverzeichnis

Was ist der Zweck des Verstärkungslernens (RL)?

Intuition hinter Rl

rl ist nicht „neu“ - es kann das menschliche Know -how übertreffen (Alphago, 2016)

Wertfunktion

Schauspieler-kritische Architektur

Verstärkungslernen mit menschlichem Feedback (RLHF)

Upsides von RLHF

Nachteile von rlhf

Haben Sie Fragen oder Ideen für das, was ich als nächstes behandeln sollte? Lass sie in die Kommentare fallen - ich würde gerne deine Gedanken hören. Wir sehen uns im nächsten Artikel!

Heim

Technologie-Peripheriegeräte

Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago

DDD

Feb 28, 2025 am 10:37 AM

Willkommen in Teil 2 meines LLM Deep Dive. Wenn Sie Teil 1 nicht gelesen haben, empfehle ich Ihnen dringend, es zuerst zu überprüfen.

zuvor haben wir die ersten beiden Hauptstadien des Trainings mit LLM behandelt:

Vorverzerend-Lernen aus massiven Datensätzen, um ein Basismodell zu bilden.
beaufsichtigte Feinabstimmung (SFT)-Verfeinerung des Modells mit kuratierten Beispielen, um es nützlich zu machen.

Jetzt tauchen wir in die nächste Hauptphase ein: Verstärkungslernen (RL) . Während die Vorausbildung und SFT gut etabliert sind, entwickelt sich RL immer noch weiter, ist jedoch zu einem kritischen Bestandteil der Trainingspipeline.

Ich habe Referenz von Andrej Karpathys weit verbreitetes 3,5-stündiger YouTube von 3,5 Stunden genommen. Andrej ist Gründungsmitglied von Openai, seine Erkenntnisse sind Gold - Sie haben die Idee.

lass uns gehen?

Was ist der Zweck des Verstärkungslernens (RL)?

Menschen und LLMs verarbeiten Informationen unterschiedlich. Was für uns intuitiv ist - wie die grundlegende Arithmetik - ist möglicherweise nicht für ein LLM, der nur Text als Sequenzen von Token ansieht. Umgekehrt kann ein LLM Experten-Level-Antworten zu komplexen Themen generieren, nur weil es im Training genügend Beispiele gesehen hat.

Dieser Unterschied in der Wahrnehmung macht es für menschliche Annotatoren schwierig, die „perfekte“ Etiketten zu liefern, die ein LLM konsequent zur richtigen Antwort führen.

rl brücken diese Lücke, indem er das Modell zu aus seiner eigenen Erfahrung lerne .

Anstatt sich ausschließlich auf explizite Etiketten zu verlassen, untersucht das Modell verschiedene Token -Sequenzen und empfängt Feedback - Belohnungssignale -, auf denen die Ausgänge am nützlichsten sind. Im Laufe der Zeit lernt es, sich mit der menschlichen Absicht besser auszurichten.

Intuition hinter Rl

llms sind stochastisch - was bedeutet, dass ihre Antworten nicht festgelegt sind. Auch bei der gleichen Eingabeaufforderung variiert der Ausgang, da er aus einer Wahrscheinlichkeitsverteilung abgetastet wird.

Wir können diese Zufälligkeit nutzen, indem wir Tausende oder sogar Millionen möglicher Antworten parallel erzeugen. Betrachten Sie es als das Modell, das verschiedene Wege erforscht - einige gute, einige schlechte. Unser Ziel ist es, es zu ermutigen, die besseren Wege öfter aufzunehmen.

Um dies zu tun, trainieren wir das Modell auf den Sequenzen von Token, die zu besseren Ergebnissen führen. Im Gegensatz zu beaufsichtigten Feinabstimmungen, bei denen menschliche Experten beschriftete Daten liefern, ermöglicht Verstärkungslernen das Modell von sich selbst.

Das Modell entdeckt, welche Antworten am besten funktionieren, und nach jedem Trainingsschritt aktualisieren wir seine Parameter. Im Laufe der Zeit führt das Modell mit höherer Wahrscheinlichkeit hochwertige Antworten, wenn sie in Zukunft ähnliche Eingabeaufforderungen erhalten.

Aber wie bestimmen wir, welche Antworten am besten sind? Und wie viel RL sollen wir tun? Die Details sind schwierig, und sie richtig zu machen ist nicht trivial.

rl ist nicht „neu“ - es kann das menschliche Know -how übertreffen (Alphago, 2016)

Ein großartiges Beispiel für RLs Macht ist das Alphago von DeepMind, die erste KI, die einen professionellen Go-Spieler besiegt und späteres Spiel auf Menschenebene übertroffen hat.

In dem Naturpapier 2016 (Diagramm unten), als ein Modell nur durch SFT trainiert wurde (gab das Modell tonne gute Beispiele), das Modell in der Lage war, die Leistung auf menschlicher Ebene zu erreichen, , aber niemals übertreffen .

Die gepunktete Linie repräsentiert Lee Sedols Leistung - der beste Go -Spieler der Welt.

Dies liegt daran RL ermöglichte Alphago jedoch, gegen sich selbst zu spielen, seine Strategien zu verfeinern und letztendlich das menschliche Fachwissen

(blaue Linie) zu übertreffen.

rl repräsentiert eine aufregende Grenze in KI - wo Modelle Strategien über die menschliche Vorstellungskraft hinaus untersuchen können, wenn wir sie auf einem vielfältigen und herausfordernden Problem der Probleme ausbilden, um die Denkstrategien zu verfeinern.

Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago

rl Foundations recap

Lassen Sie uns die Schlüsselkomponenten eines typischen RL -Setups schnell wiederholen:

- Der Lernende oder Entscheidungsträger. Es beobachtet die aktuelle Situation ( Zustand ), wählt eine Aktion aus und aktualisiert ihr Verhalten anhand des Ergebniss ( Belohnung ).
- Das externe System, in dem der Agent arbeitet.
- Ein Schnappschuss der Umgebung in einem bestimmten Schritt t . Bei jedem Zeitstempel führt der Agent eine

Aktion

in der Umgebung durch, die den Zustand der Umgebung in eine neue verändert. Der Agent erhält außerdem Feedback, die angeben, wie gut oder schlecht die Aktion war. Dieses Feedback wird als

Belohnung

bezeichnet und in numerischer Form dargestellt. Eine positive Belohnung fördert dieses Verhalten, und eine negative Belohnung entmutigt es. Durch die Verwendung von Feedback aus verschiedenen Zuständen und Aktionen lernt der Agent allmählich die optimale Strategie, um die Gesamtbelohnung zu maximieren im Laufe der Zeit.

Richtlinie Die Richtlinie ist die Strategie des Agenten. Wenn der Agent einer guten Richtlinie folgt, wird er konsequent gute Entscheidungen treffen, was zu höheren Belohnungen in vielen Schritten führt.

In mathematischen Begriffen ist es eine Funktion, die die Wahrscheinlichkeit verschiedener Ausgänge für einen bestimmten Zustand bestimmt -

(πθ (a | s)) .

Wertfunktion

Eine Schätzung, wie gut es in einem bestimmten Zustand ist, wenn man die langfristige erwartete Belohnung berücksichtigt. Für eine LLM kann die Belohnung aus menschlichem Feedback oder einem Belohnungsmodell stammen.

Schauspieler-kritische Architektur

Es ist ein beliebtes RL -Setup, das zwei Komponenten kombiniert:

Akteur - lernt und aktualisiert die -Politik (πθ) und entscheidet, welche Maßnahmen in jedem Zustand ergreifen sollen.

Critic - Evaluiert die -Wergie -Funktion (v (s)), um dem Schauspieler Feedback zu geben, ob seine gewählten Aktionen zu guten Ergebnissen führen.

wie es funktioniert:

Der Actor wählt eine Aktion basierend auf seiner aktuellen Richtlinie aus.
Der
Kritiker bewertet das Ergebnis (Belohnung im nächsten Zustand) und aktualisiert seine Wertschätzung.
Das Feedback des Kritikers hilft dem Akteur, seine Richtlinie so zu verfeinern, dass zukünftige Maßnahmen zu höheren Belohnungen führen.

alles zusammen für llms
zusammenstellen
Der Status kann der aktuelle Text (Aufforderung oder Konversation) sein, und die Aktion kann das nächste Token sein, das generiert werden muss. Ein Belohnungsmodell (z. B. menschliches Feedback) sagt dem Modell, wie gut oder schlecht es generierten Text ist.

Die Richtlinie ist die Strategie des Modells zur Auswahl des nächsten Tokens, während die Wertschöpfungsfunktion schätzt, wie vorteilhaft der aktuelle Textkontext in Bezug auf letztendlich hochwertige Antworten ist.

Deepseek-R1 (veröffentlicht 22. Januar 2025)

Um die Bedeutung von RL hervorzuheben, lassen Sie uns Deepseek-R1, ein Argumentationsmodell, das eine erstklassige Leistung erzielt und gleichzeitig Open-Source-Leistungsverhältnisse erzielt. Das Papier führte zwei Modelle vor:
Deepseek-R1-Zero und Deepseek-R1.

Deepseek-r1-Null wurde ausschließlich über groß angelegte RL ausgebildet und übersprungen beaufsichtigte Feinabstimmungen (SFT).

Deepseek-r1 baut darauf auf und befasst sich mit den auftretenden Herausforderungen.

Lassen Sie uns in einige dieser Schlüsselpunkte eintauchen.

1. RL Algo: Gruppenrelative Richtlinienoptimierung (GRPO)

Ein wichtiger RL -Algorithmus für Spiele ist die Gruppenrelationsrichtlinienoptimierung (GRPO), eine Variante der weit verbreiteten populären proximalen Richtlinienoptimierung (PPO). Grpo wurde im Februar 2024 in der Papier von Deepseekmath eingeführt.

Warum Grpo über PPO?
PPO kämpft mit Argumentationsaufgaben durch:

Abhängigkeit von einem Kritikermodell.
hohe Rechenkosten, da RL -Pipelines erhebliche Ressourcen für die Bewertung und Optimierung der Antworten erfordern.

Absolute Belohnungsbewertungen
Wenn Sie sich auf eine absolute Belohnung verlassen-was bedeutet, dass es einen einzigen Standard oder eine Metrik gibt, um zu beurteilen, ob eine Antwort „gut“ oder „schlecht“ ist-kann es schwierig sein, die Nuancen offener, unterschiedlicher Aufgaben über verschiedene Argumentationsbereiche hinweg zu erfassen.
.

Wie Grpo diese Herausforderungen ansprach:
grpo eliminiert das Kritikermodell unter Verwendung relative Bewertung
- Antworten werden in einer Gruppe verglichen und nicht nach einem festen Standard beurteilt.
Stellen Sie sich vor, die Schüler lösen ein Problem. Anstatt dass ein Lehrer sie einzeln bewertet, vergleichen sie Antworten und lernen voneinander. Im Laufe der Zeit konvergiert die Leistung in Richtung höherer Qualität.

Wie passt GRPO in den gesamten Trainingsprozess?

grpo modifiziert, wie der Verlust berechnet wird, während andere Trainingsschritte unverändert bleiben:

Daten sammeln (Abfragenantworten)

- Für LLMs sind Abfragen wie Fragen - Die alte Richtlinie (älterer Schnappschuss des Modells) generiert mehrere Kandidatenantworten für jede Abfrage

Belohnungen zuweisen
- Jede Antwort in der Gruppe wird bewertet (die „Belohnung“).
Berechnen Sie den Grpo -Verlust

Traditionell werden Sie einen Verlust berechnen - was die Abweichung zwischen der Modellvorhersage und dem wahren Etikett zeigt. Schlimmer noch?
Zurück -Ausbreitungsgradient -Abstieg
- Die Rückverbreitung berechnet, wie jeder Parameter zu Verlust - Gradientenabstieg beigetragen hat, diese Parameter, um den Verlust
- über viele Iterationen zu verringern, und verändert die neue Richtlinie die neue Richtlinie zu einer höheren Belohnung .

Aktualisieren Sie die alte Richtlinie gelegentlich, um der neuen Richtlinie zu entsprechen
.
Dies aktualisiert die Grundlinie für die nächste Vergleichsrunde.
2. Denkkette (cot)
traditionelles LLM-Training folgt vor der Training → SFT → RL. Deepseek-r1-nero übersprungenes SFT
, sodass das Modell die COT-Argumentation direkt untersuchen kann.
Wie Menschen, die durch eine schwierige Frage nachdenken, ermöglicht COT Modellen, Probleme in Zwischenschritte zu unterteilen und komplexe Argumentationsfunktionen zu steigern. Das O1-Modell von OpenAI nutzt dies auch, wie in seinem Bericht im September 2024 erwähnt: Die Leistung von O1 verbessert sich mit mehr RL (Zug-Zeit-Rechenrechnung) und mehr Argumentationszeit (Testzeit-Rechenumfang).

Deepseek-r1-Null zeigte reflektierende Tendenzen, die seine Argumentation autonom verfeinern.

Ein Schlüsseldiagramm (unten) im Artikel zeigte während des Trainings ein erhöhtes Denken, was zu längeren (mehr Token), detaillierteren und besseren Antworten führte.

Ohne explizite Programmierung begann es, vergangene Argumentationsschritte zu überdenken und die Genauigkeit zu verbessern. Dies unterstreicht die Gedankenkette als eine aufstrebende Eigenschaft des RL-Trainings.

Das Modell hatte auch einen „AHA -Moment“ (unten) - ein faszinierendes Beispiel dafür, wie RL zu unerwarteten und raffinierten Ergebnissen führen kann.

HINWEIS: Im Gegensatz zu Deepseek-R1 zeigt Openai in O1 keine vollständigen Denkketten, da sie über ein Destillationsrisiko besorgt sind-bei dem jemand hereinkommt und versucht, diese Argumentationsspuren nachzuahmen und einen Großteil der Argumentationsleistung wiederzugewinnen, indem sie nur nachahmt. Stattdessen nur Zusammenfassungen dieser Ketten von Gedanken.

Verstärkungslernen mit menschlichem Feedback (RLHF)

Für Aufgaben mit überprüfbaren Ausgängen (z. B. mathematische Probleme, sachliche Q & A) können AI -Antworten leicht bewertet werden. Aber was ist mit Bereichen wie Summarisierung oder kreativem Schreiben, wo es keine einzige „richtige“ Antwort gibt?

Hier kommt das menschliche Feedback ins Spiel - aber naive RL -Ansätze sind unvergleichlich.

Schauen wir uns den naiven Ansatz mit einigen willkürlichen Zahlen an.

Das sind eine Milliarde menschliche Bewertungen benötigt! Dies ist zu kostspielig, langsam und unvergleichlich. Eine intelligentere Lösung besteht daher darin, ein KI -Belohnungsmodell zu schulen, um menschliche Vorlieben zu erlernen und die menschliche Anstrengung dramatisch zu verringern.

Ranking -Antworten ist auch einfacher und intuitiver als absolute Bewertung.

Upsides von RLHF

kann auf jede Domäne angewendet werden, einschließlich kreatives Schreiben, Poesie, Zusammenfassung und anderen offenen Aufgaben.

Ranking -Ausgänge ist für menschliche Lager viel einfacher als die Erzeugung kreativer Ausgänge selbst.

Nachteile von rlhf

Das Belohnungsmodell ist eine Annäherung - es spiegelt möglicherweise die menschlichen Vorlieben nicht perfekt wider.

rl ist gut im Spielen des Belohnungsmodell

Beachten Sie, dass RLHF nicht dasselbe ist wie das herkömmliche RL. Für empirische, überprüfbare Domänen (z. B. Mathematik, Codierung) kann RL auf unbestimmte Zeit ausgeführt und neuartige Strategien entdecken. RLHF hingegen ähnelt eher ein feinabstimmiger Schritt, um Modelle mit menschlichen Vorlieben auszurichten. Schlussfolgerung

Und das ist ein Wrap! Ich hoffe, Sie haben Teil 2 genossen? Wenn Sie Teil 1 noch nicht gelesen haben, sehen Sie es sich hier an.

Haben Sie Fragen oder Ideen für das, was ich als nächstes behandeln sollte? Lass sie in die Kommentare fallen - ich würde gerne deine Gedanken hören. Wir sehen uns im nächsten Artikel!

Das obige ist der detaillierte Inhalt vonWie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055612 in Windows 10 nicht installieren?

4 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

Nordhold: Fusionssystem, erklärt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1672

CakePHP-Tutorial

1428

Laravel-Tutorial

1332

PHP-Tutorial

1276

C#-Tutorial

1256

Related knowledge

Wie baue ich multimodale KI -Agenten mit AGNO -Framework auf? Apr 23, 2025 am 11:30 AM

Während der Arbeit an Agentic AI navigieren Entwickler häufig die Kompromisse zwischen Geschwindigkeit, Flexibilität und Ressourceneffizienz. Ich habe den Agenten-KI-Framework untersucht und bin auf Agno gestoßen (früher war es phi-

Wie füge ich eine Spalte in SQL hinzu? - Analytics Vidhya Apr 17, 2025 am 11:43 AM

SQL -Änderungstabellanweisung: Dynamisches Hinzufügen von Spalten zu Ihrer Datenbank Im Datenmanagement ist die Anpassungsfähigkeit von SQL von entscheidender Bedeutung. Müssen Sie Ihre Datenbankstruktur im laufenden Flug anpassen? Die Änderungstabelleerklärung ist Ihre Lösung. Diese Anleitung Details Hinzufügen von Colu

OpenAI-Verschiebungen Fokus mit GPT-4.1, priorisiert die Codierung und Kosteneffizienz Apr 16, 2025 am 11:37 AM

Die Veröffentlichung umfasst drei verschiedene Modelle, GPT-4.1, GPT-4.1 Mini und GPT-4.1-Nano, die einen Zug zu aufgabenspezifischen Optimierungen innerhalb der Landschaft des Großsprachenmodells signalisieren. Diese Modelle ersetzen nicht sofort benutzergerichtete Schnittstellen wie

Jenseits des Lama -Dramas: 4 neue Benchmarks für große Sprachmodelle Apr 14, 2025 am 11:09 AM

Schwierige Benchmarks: Eine Lama -Fallstudie Anfang April 2025 stellte Meta seine Lama 4-Suite von Models vor und stellte beeindruckende Leistungsmetriken vor, die sie positiv gegen Konkurrenten wie GPT-4O und Claude 3.5 Sonnet positionierten. Zentral im Launc

Neuer kurzer Kurs zum Einbetten von Modellen von Andrew NG Apr 15, 2025 am 11:32 AM

Schalte die Kraft des Einbettungsmodelle frei: einen tiefen Eintauchen in den neuen Kurs von Andrew Ng Stellen Sie sich eine Zukunft vor, in der Maschinen Ihre Fragen mit perfekter Genauigkeit verstehen und beantworten. Dies ist keine Science -Fiction; Dank der Fortschritte in der KI wird es zu einem R

Wie ADHS -Spiele, Gesundheitstools und KI -Chatbots die globale Gesundheit verändern Apr 14, 2025 am 11:27 AM

Kann ein Videospiel Angst erleichtern, Fokus aufbauen oder ein Kind mit ADHS unterstützen? Da die Herausforderungen im Gesundheitswesen weltweit steigen - insbesondere bei Jugendlichen - wenden sich Innovatoren einem unwahrscheinlichen Tool zu: Videospiele. Jetzt einer der größten Unterhaltungsindus der Welt

Raketenstartsimulation und -analyse unter Verwendung von Rocketpy - Analytics Vidhya Apr 19, 2025 am 11:12 AM

Simulieren Raketenstarts mit Rocketpy: Eine umfassende Anleitung Dieser Artikel führt Sie durch die Simulation von Rocketpy-Starts mit hoher Leistung mit Rocketpy, einer leistungsstarken Python-Bibliothek. Wir werden alles abdecken, von der Definition von Raketenkomponenten bis zur Analyse von Simula

Google enthüllt die umfassendste Agentenstrategie bei Cloud nächsten 2025 Apr 15, 2025 am 11:14 AM

Gemini als Grundlage der KI -Strategie von Google Gemini ist der Eckpfeiler der AI -Agentenstrategie von Google und nutzt seine erweiterten multimodalen Funktionen, um Antworten auf Text, Bilder, Audio, Video und Code zu verarbeiten und zu generieren. Entwickelt von Deepm

See all articles