


Comment fonctionnent le LLMS: Renforcement Learning, RLHF, Deepseek R1, Openai O1, Alphago
Bienvenue dans la partie 2 de ma plongée profonde LLM. Si vous n'avez pas lu la partie 1, je vous encourage fortement à le vérifier en premier.
Auparavant, nous avons couvert les deux premières étapes majeures de la formation d'un LLM:
- Pré-formation - Apprendre des ensembles de données massifs pour former un modèle de base.
- Affinement fin supervisé (SFT) - affiner le modèle avec des exemples organisés pour le rendre utile.
Maintenant, nous plongeons dans la prochaine étape principale: Apprentissage par renforcement (RL) . Alors que la pré-formation et la SFT sont bien établies, RL évolue toujours mais est devenu un élément essentiel du pipeline d'entraînement.
J'ai pris référence sur YouTube de 3,5 heures largement populaire d'Andrej Karpathy. Andrej est un membre fondateur d'Openai, ses idées sont l'or - vous avez l'idée.
allons-y?
Quel est le but de l'apprentissage du renforcement (RL)?
Les humains et les LLMs traitent les informations différemment. Ce qui est intuitif pour nous - comme l'arithmétique de base - peut ne pas être pour un LLM, qui ne considère que le texte comme des séquences de jetons. Inversement, un LLM peut générer des réponses au niveau des experts sur des sujets complexes simplement parce qu'il a vu suffisamment d'exemples pendant la formation.
Cette différence de cognition rend difficile pour les annotateurs humains de fournir l'ensemble «parfait» d'étiquettes qui guident systématiquement un LLM vers la bonne réponse.
RL comble cette lacune en permettant au modèle de apprendre de sa propre expérience .
Au lieu de compter uniquement sur des étiquettes explicites, le modèle explore différentes séquences de jetons et reçoit des commentaires - des signaux de récompense - sur les sorties les plus utiles. Au fil du temps, il apprend à mieux s'aligner sur l'intention humaine.
intuition derrière Rl
Les LLMsont stochastiques - ce qui signifie que leurs réponses ne sont pas fixées. Même avec la même invite, la sortie varie car elle est échantillonnée à partir d'une distribution de probabilité.
Nous pouvons exploiter ce hasard en générant des milliers ou même des millions de réponses possibles en parallèle . Considérez-le comme le modèle explorant différents chemins - certains bons, certains mauvais. Notre objectif est de l'encourager à prendre les meilleurs chemins plus souvent.
Pour ce faire, nous formons le modèle sur les séquences de jetons qui conduisent à de meilleurs résultats. Contrairement à un réglage fin supervisé, où les experts humains fournissent des données étiquetées, l'apprentissage du renforcement permet au modèle de apprendre de lui-même.
Le modèle découvre les réponses qui fonctionnent le mieux, et après chaque étape de formation, nous mettons à jour ses paramètres. Au fil du temps, cela rend le modèle plus susceptible de produire des réponses de haute qualité lorsqu'elles ont donné des invites similaires à l'avenir.
Mais comment déterminons-nous quelles réponses sont les meilleures? Et combien RL devrions-nous faire? Les détails sont difficiles, et les faire correctement n'est pas trivial.
RL n'est pas «nouveau» - il peut dépasser l'expertise humaine (Alphago, 2016)
Un excellent exemple de la puissance de RL est l'alphago de Deepmind, la première IA à vaincre un joueur de GO professionnel et à dépasser plus tard le jeu de niveau humain.
Dans l'article de la nature 2016 (graphique ci-dessous), lorsqu'un modèle a été formé uniquement par SFT (donnant au modèle des tonnes de bons exemples à imiter), le modèle a pu atteindre les performances au niveau humain, mais ne le dépasse jamais .
La ligne pointillée représente les performances de Lee Sedol - le meilleur joueur Go au monde.
C'est parce que SFT concerne la réplication, pas l'innovation - elle ne permet pas au modèle de découvrir de nouvelles stratégies au-delà de la connaissance humaine.
Cependant, RL a permis à Alphago de jouer contre lui-même, d'affiner ses stratégies et, finalement, dépasser l'expertise humaine (ligne bleue).

RL représente une frontière passionnante dans l'IA - où les modèles peuvent explorer des stratégies au-delà de l'imagination humaine lorsque nous la formons sur un bassin divers et difficile de problèmes pour affiner ses stratégies de réflexion.
RL Recaps Foundations
Recaptons rapidement les composants clés d'une configuration RL typique:

- agent - l'apprenant ou le décideur. Il observe la situation actuelle ( état ), choisit une action, puis met à jour son comportement en fonction du résultat ( récompense ).
- Environnement - Le système externe dans lequel l'agent fonctionne.
- État - Un instantané de l'environnement à une étape donnée t .
À chaque horodatage, l'agent effectue une Action dans l'environnement qui changera l'état de l'environnement en un nouveau. L'agent recevra également des commentaires indiquant à quel point l'action était bonne ou mauvaise.
Cette rétroaction est appelée A Récompense , et est représentée sous une forme numérique. Une récompense positive encourage ce comportement et une récompense négative le décourage.
En utilisant les commentaires de différents états et actions, l'agent apprend progressivement la stratégie optimale pour maximiser la récompense totale au fil du temps.
Politique
La politique est la stratégie de l'agent. Si l'agent suit une bonne politique, il prendra systématiquement de bonnes décisions, conduisant à des récompenses plus élevées sur de nombreuses étapes.
En termes mathématiques, c'est une fonction qui détermine la probabilité de différentes sorties pour un état donné - (πθ (a | s)) .
Fonction de valeur
Une estimation de la qualité de celle-ci d'être dans un certain état, compte tenu de la récompense attendue à long terme. Pour un LLM, la récompense peut provenir d'une rétroaction humaine ou d'un modèle de récompense.
Architecture acteur-critique
Il s'agit d'une configuration RL populaire qui combine deux composants:
- acteur - apprend et met à jour la stratégie (πθ), décidant de quelle action prendre dans chaque état.
- critique - évalue la fonction de valeur (v (s)) pour donner des commentaires à l'acteur sur la question de savoir si ses actions choisies conduisent à de bons résultats.
comment cela fonctionne:
- L'acteur choisit une action basée sur sa politique actuelle.
- le critique évalue le résultat (récompense à l'état suivant) et met à jour son estimation de valeur.
- Les commentaires du critique aident l'acteur à affiner sa politique afin que les actions futures conduisent à des récompenses plus élevées.
Mettez le tout pour LLMS
L'état peut être le texte actuel (invite ou conversation), et l'action peut être le prochain jeton à générer. Un modèle de récompense (par exemple, la rétroaction humaine), indique au modèle à quel point il est bon ou mauvais.
La politique est la stratégie du modèle pour choisir le token suivant, tandis que la fonction de valeur estime à quel point le contexte de texte actuel est bénéfique, en termes de réception éventuellement de réponses de haute qualité.Deepseek-R1 (publié le 22 janvier 2025)
Pour mettre en évidence l’importance de RL, explorons Deepseek-R1, un modèle de raisonnement atteignant des performances de haut niveau tout en restant open-source. Le document a introduit deux modèles:
Deepseek-R1-Zero et Deepseek-R1.
- Deepseek-R1-Zero a été formé uniquement via une RL à grande échelle, sautant un réglage fin supervisé (SFT).
- Deepseek-R1 s'appuie sur elle, relevant des défis rencontrés.

1. RL Algo: Optimisation de la politique relative du groupe (GRPO)
Un algorithme RL modifiant le jeu clé est l'optimisation relative de stratégie de groupe (GRPO), une variante de l'optimisation de politique proximale (PPO) largement populaire. GRPO a été introduit dans le papier Deepseekmath en février 2024.
Pourquoi grpo sur PPO?
PPO se débat avec des tâches de raisonnement en raison de:- dépendance à l'égard d'un modèle de critique.
PPO a besoin d'un modèle de critique distinct, doubler efficacement la mémoire et calculer.
La formation du critique peut être complexe pour les tâches nuancées ou subjectives. - Coût de calcul élevé car les pipelines RL exigent des ressources substantielles pour évaluer et optimiser les réponses.
- Évaluations de récompense absolue
Lorsque vous comptez sur une récompense absolue - ce qui signifie qu'il existe une seule norme ou une mesure pour juger si une réponse est «bonne» ou «mauvaise» - il peut être difficile de capturer les nuances de tâches ouvertes et diverses dans différents domaines de raisonnement.
Comment GRPO a relevé ces défis:
GRPO élimine le modèle de critique en utilisant Évaluation relative - Les réponses sont comparées au sein d'un groupe plutôt que jugé selon une norme fixe.
Imaginez que les étudiants résolvent un problème. Au lieu qu'un enseignant les classe individuellement, ils comparent les réponses, apprenant les uns des autres. Au fil du temps, les performances convergent vers une meilleure qualité.
Comment GRPO s'intègre-t-il dans l'ensemble du processus de formation?
GRPO modifie la façon dont la perte est calculée tout en gardant les autres étapes de formation inchangées:
- Recueillir des données (réponses de requêtes)
- Pour les LLM, les requêtes sont comme des questions
- L'ancienne politique (ancien instantané du modèle) génère plusieurs réponses candidates pour chaque requête - Attribuer des récompenses - Chaque réponse du groupe est notée (la «récompense»).
- Calculez la perte grpo
traditionnellement, vous calculerez une perte - qui montre l'écart entre la prédiction du modèle et la véritable étiquette.
dans le Grpo, cependant, vous mesurez:
a) La probabilité que la nouvelle politique soit mieux pour produire des réponses passées? Pire?
c) Appliquer une coupure pour éviter les mises à jour extrêmes.
Cela donne une perte scalaire.
- Document de propagation du gradient de descente
- La propagation du dos calcule comment chaque paramètre a contribué à la perte - La descente de gradient met à jour ces paramètres pour réduire les réponses de la perte
>
Mettez à jour l'ancienne stratégie à l'occasion pour correspondre à la nouvelle politique - . Cela rafraîchit la ligne de base pour la prochaine série de comparaisons.
2. Chaîne de pensée (COT)
La formation LLM traditionnelle suit la pré-formation → SFT → RL. Cependant, Deepseek-R1-Zero
a sauté SFT, permettant au modèle d'explorer directement le raisonnement du COT. Comme les humains pensant à travers une question difficile, le COT permet aux modèles de diviser les problèmes en étapes intermédiaires, augmentant les capacités de raisonnement complexes. Le modèle O1 d'OpenAI exploite également cela, comme indiqué dans son rapport de septembre 2024: Les performances de l'O1 s'améliorent avec plus de RL (calcul du train) et plus de temps de raisonnement (calcul du temps de test). Deepseek-R1-Zero a montré des tendances réfléchissantes, affinant de manière autonome son raisonnement. Un graphique clé (ci-dessous) dans l'article a montré une réflexion accrue pendant la formation, conduisant à des réponses plus longues (plus de jetons), plus détaillées et meilleures. Sans programmation explicite, il a commencé à revoir les étapes du raisonnement passé, améliorant la précision. Cela met en évidence le raisonnement de la chaîne de réflexion comme une propriété émergente de la formation RL. Le modèle a également eu un «moment aha» (ci-dessous) - un exemple fascinant de la façon dont RL peut conduire à des résultats inattendus et sophistiqués. Remarque: Contrairement à Deepseek-R1, OpenAI ne montre pas de réflexion de réflexion complète en O1 car il est préoccupé par un risque de distillation - où quelqu'un entre et essaie d'imiter ces traces de raisonnement et de récupérer une grande partie des performances de raisonnement en imitant simplement. Au lieu de cela, O1 résume juste de ces chaînes de pensées. Pour les tâches avec des sorties vérifiables (par exemple, les problèmes mathématiques, les questions et réponses factuelles), les réponses d'IA peuvent être facilement évaluées. Mais qu'en est-il des domaines comme la résumé ou l'écriture créative, où il n'y a pas de réponse «correcte»? C'est là que la rétroaction humaine entre en jeu - mais les approches RL naïves sont maltraiables. Regardons l'approche naïve avec quelques nombres arbitraires. C'est un milliard d'évaluations humaines nécessaires! C'est trop coûteux, lent et sans écheclable. Par conséquent, une solution plus intelligente consiste à former un «modèle de récompense» de l'IA pour apprendre les préférences humaines, réduisant considérablement l'effort humain. Les réponses de classement sont également plus faciles et plus intuitives que la notation absolue. Notez que RLHF n'est pas le même que Rl traditionnel Pour les domaines empiriques et vérifiables (par exemple les mathématiques, le codage), RL peut fonctionner indéfiniment et découvrir de nouvelles stratégies. RLHF, en revanche, ressemble plus à une étape de réglage fin pour aligner les modèles avec les préférences humaines. Et c'est un enveloppe! J'espère que vous avez apprécié la partie 2? Si vous n'avez pas déjà lu la partie 1 - vérifiez-le ici. Vous avez des questions ou des idées pour ce que je devrais couvrir ensuite? Déposez-les dans les commentaires - j'aimerais entendre vos pensées. Rendez-vous dans le prochain article!
Apprentissage du renforcement avec rétroaction humaine (RLHF)
Réflexions de rlhf
inconvénients de rlhf
Conclusion
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Tout en travaillant sur une IA agentique, les développeurs se retrouvent souvent à naviguer dans les compromis entre la vitesse, la flexibilité et l'efficacité des ressources. J'ai exploré le cadre de l'IA agentique et je suis tombé sur Agno (plus tôt c'était Phi-

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

La version comprend trois modèles distincts, GPT-4.1, GPT-4.1 Mini et GPT-4.1 Nano, signalant une évolution vers des optimisations spécifiques à la tâche dans le paysage du modèle grand langage. Ces modèles ne remplacent pas immédiatement les interfaces orientées utilisateur comme

Benchmarks en difficulté: une étude de cas de lama Début avril 2025, Meta a dévoilé sa suite de modèles Llama 4, avec des métriques de performance impressionnantes qui les ont placés favorablement contre des concurrents comme GPT-4O et Claude 3.5 Sonnet. Au centre du launc

Déverrouiller la puissance des modèles d'intégration: une plongée profonde dans le nouveau cours d'Andrew Ng Imaginez un avenir où les machines comprennent et répondent à vos questions avec une précision parfaite. Ce n'est pas de la science-fiction; Grâce aux progrès de l'IA, cela devient un R

Un jeu vidéo peut-il faciliter l'anxiété, se concentrer ou soutenir un enfant atteint de TDAH? Au fur et à mesure que les défis de la santé augmentent à l'échelle mondiale - en particulier chez les jeunes - les innovateurs se tournent vers un outil improbable: les jeux vidéo. Maintenant l'un des plus grands divertissements du monde Indus

Simuler les lancements de fusée avec Rocketpy: un guide complet Cet article vous guide à travers la simulation des lancements de fusées haute puissance à l'aide de Rocketpy, une puissante bibliothèque Python. Nous couvrirons tout, de la définition de composants de fusée à l'analyse de Simula

Gemini comme fondement de la stratégie d'IA de Google Gemini est la pierre angulaire de la stratégie d'agent AI de Google, tirant parti de ses capacités multimodales avancées pour traiter et générer des réponses à travers le texte, les images, l'audio, la vidéo et le code. Développé par Deepm
