Maison > Périphériques technologiques > IA > Comment former les LLM à «penser» (O1 et Deepseek-R1)

Comment former les LLM à «penser» (O1 et Deepseek-R1)

Patricia Arquette
Libérer: 2025-03-04 10:37:11
original
289 Les gens l'ont consulté

Le modèle O1 d'Openai, dévoilé en septembre 2024, a présenté des capacités de "raisonnement avancé" grâce à l'apprentissage par renforcement à grande échelle. Deepseek, un laboratoire de recherche sur l'IA, a réussi à reproduire ce comportement et a publié ouvertement sa méthodologie. Cet article explore les concepts de base et les mécanismes sous-jacents de cette percée.

How to Train LLMs to “Think” (o1 & DeepSeek-R1) Le modèle O1 d'OpenAI a révolutionné la formation du modèle de grand langage (LLM) en introduisant des jetons de "pensée". Ces jetons spéciaux agissent comme un pavé, permettant au modèle de traiter systématiquement les problèmes et les requêtes utilisateur. Une conclusion clé a été l'amélioration des performances avec une augmentation du calcul du temps de test - plus de jetons générés équivalent à de meilleures réponses. Le graphique suivant (du blog d'Openai) illustre ceci:

How to Train LLMs to “Think” (o1 & DeepSeek-R1) Le tracé de gauche montre les lois de mise à l'échelle neuronales établies, où une formation plus longue (calcul en train) améliore les performances. Le tracé de droite révèle une nouvelle loi d'échelle: une génération de jetons accrue pendant l'inférence (calcul du temps de test) améliore les performances.

Les jetons de réflexion

Les jetons de "pensée" de

O1 délimitent le raisonnement de la chaîne de pensée (COT) du modèle. Leur importance est double: ils délimitent clairement le processus de raisonnement pour le développement de l'interface utilisateur et fournissent un enregistrement lisible par l'homme du processus de réflexion du modèle. Alors qu'Openai a gardé les détails de formation confidentiels, la recherche de Deepseek met en lumière cela.

Recherche de Deepseek

Publication de Deepseek en janvier 2025, " Deepseek-R1: la capacité de raisonnement d'incitation dans les LLM via l'apprentissage du renforcement " [2], a dévoilé les secrets du modèle O1. Ils ont introduit Deepseek-R1-Zero (formé uniquement sur l'apprentissage du renforcement) et Deepseek-R1 (un mélange de réglage fin supervisé (SFT) et RL). R1-Zero est crucial car il a généré des données de formation pour R1 et a démontré des capacités de raisonnement émergent non programmées explicitement. R1-zero découvert COT et Test-temps de calcul de calcul à travers RL seul.

Deepseek-R1-zéro (RL uniquement)

Le renforcement d'apprentissage (RL) permet aux modèles d'apprendre par essais et erreurs, recevant des signaux de récompense sans relations fonctionnelles explicites avec les paramètres du modèle. Trois aspects clés de la formation de R1-Zero sont mis en évidence:

  1. Modèle d'invite: Un modèle simple utilise des balises <think></think> et <answer></answer> pour structurer la réponse du modèle:
<code>A conversation between User and Assistant. The user asks a question, and the 
Assistant solves it.The assistant first thinks about the reasoning process in 
the mind and then provides the user with the answer. The reasoning process and 
answer are enclosed within <think></think> and <answer></answer> tags, 
respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>. User: {prompt}. Assistant:</code>
Copier après la connexion

L'incitation minimale évite les réponses de biais et permet une évolution naturelle pendant RL.

  1. Signal de récompense: Un système basé sur des règles évalue la précision et la mise en forme, en évitant les problèmes potentiels de "piratage" souvent associés aux modèles de récompense neuronaux.

  2. GRPO (optimisation de la politique relative du groupe): Cette approche RL regroupe les réponses à la mise à jour des paramètres du modèle, en incorporant l'écrêtage et la régularisation de la divergence de KL pour une formation stable. La fonction de perte est indiquée ci-dessous:

How to Train LLMs to “Think” (o1 & DeepSeek-R1)

Reaux R1-zéro (capacités émergentes)

remarquablement, R1-Zero a implicitement appris à améliorer les réponses par le calcul du temps de test et a présenté des monologues internes de type humain, y compris souvent les étapes de vérification. Un exemple est fourni dans l'article original.

Deepseek-R1 (SFT RL)

Deepseek-R1 résout les problèmes de lisibilité de R1-Zero grâce à un processus de formation en quatre étapes combinant SFT et RL:

  1. SFT avec des données de raisonnement: SFT initial utilise des milliers d'exemples de COT longs pour établir un cadre de raisonnement.

  2. R1-zéro style RL (récompense de cohérence du langage): formation RL similaire à R1-zéro, mais avec une récompense de cohérence du langage ajoutée.

  3. SFT avec des données mitigées: SFT avec des données de raisonnement et de non-relance pour élargir les capacités du modèle.

  4. RL RLHF: La formation finale RL comprend la formation de raisonnement et le RLHF pour une amélioration de l'utilité et de l'inrôme.

Accédant à R1-Zero et R1

Deepseek a rendu les poids du modèle accessibles au public, permettant l'accès par le biais de divers fournisseurs d'inférence et de déploiements locaux (Deepseek, ensemble, hyperbolique, olllama, étreinte).

Conclusions

O1 a introduit le calcul du temps de test comme nouvelle dimension pour l'amélioration de la LLM. La réplication et la publication ouverte de Deepseek démontrent que l'apprentissage du renforcement peut produire indépendamment des modèles qui dépassent les limitations existantes des connaissances humaines. Cela ouvre des possibilités passionnantes pour les futures progrès scientifiques et technologiques.

[Remarque: Les liens vers les ressources externes ont été omis car ils ne sont pas pertinents pour le contenu paraphrasé et pourraient être considérés comme promotionnels.]

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal