Maison > Périphériques technologiques > IA > Deepseek R1: Openai O1 le plus grand concurrent est là!

Deepseek R1: Openai O1 le plus grand concurrent est là!

William Shakespeare
Libérer: 2025-03-09 12:01:14
original
682 Les gens l'ont consulté

Deepseek AI a révolutionnaire les modèles de raisonnement en profondeur R1 redéfinit l'IA génératrice. Tirant parti de l'apprentissage par renforcement (RL) et d'une approche open source, Deepseek R1 offre des capacités de raisonnement avancées accessibles à l'échelle mondiale aux chercheurs et aux développeurs. Les tests de référence montrent que cela rivalise et, dans certains cas, dépasse le modèle O1 d'Openai, ce qui remet en question la domination LLM d'Openai. Explorons plus loin!

? Deepseek-R1 est arrivé!

⚡ Les performances correspondent openai-o1 ? Modèle et rapport technique entièrement open source ? MIT Licensed: GRATUIT pour la recherche et l'utilisation commerciale!

? Le site Web et l'API sont en direct! Découvrez Deepthink at https://www.php.cn/link/5d4d48d0359e45e4fdf997818d6407fd aujourd'hui!

? 1 / n pic.twitter.com/7blpwapu6y

- Deepseek (@deepseek_ai) 20 janvier 2025

Table des matières

  • Qu'est-ce que Deepseek R1?
  • Formation en profondeur-R1
  • Modèles Deepseek R1
  • Fonctionnalités de la clé R1 Deepseek
  • Accès à R1
  • Applications
  • Conclusion

Qu'est-ce que Deepseek R1?

Deepseek R1 est un modèle de langage large (LLM) priorisant le raisonnement dans les systèmes d'IA génératifs. Les techniques avancées d'apprentissage par renforcement (RL) alimentent ses capacités.

  • Il améliore considérablement le raisonnement LLM, minimisant la dépendance à l'égard du réglage fin supervisé (SFT).
  • Deepseek R1 aborde un défi de base d'IA: améliorer le raisonnement sans Sft.

Les méthodes de formation innovantes permettent au modèle de gérer des tâches complexes en mathématiques, codage et logique.

DeepSeek R1: OpenAI o1 Biggest Competitor is HERE!

Formation Deepseek-R1

1. Apprentissage du renforcement

  • Deepseek-R1-Zero utilise uniquement l'apprentissage du renforcement (RL), qui précède SFT. Cette approche encourage le modèle à développer indépendamment des compétences de raisonnement avancées, y compris l'auto-vérification, la réflexion et le raisonnement de la chaîne de pensées (COT).

Système de récompense

  • Les récompenses sont basées sur la précision de référence spécifique à la tâche.
  • Les récompenses secondaires incitent les sorties de raisonnement structurées, claires et cohérentes.

Échantillonnage de rejet

  • Pendant RL, plusieurs chemins de raisonnement sont générés, les plus performants guidant une formation plus approfondie.

2. Initialisation de démarrage à froid avec des données annotées humaines

  • Exemples annotés par l'homme de raisonnement étendu de COT Initialiser la formation profonde-R1. Cela garantit la lisibilité et l'alignement sur les attentes des utilisateurs.
  • Cette étape comble l'écart entre RL pur (qui peut produire des sorties fragmentées ou ambiguës) et un raisonnement de haute qualité.

3. Pipeline d'entraînement en plusieurs étapes

  • Étape 1: Données de démarrage à froid Prétrait: Un ensemble de données organisé d'annotations humaines amorce le modèle avec des structures de raisonnement fondamentales.
  • Étape 2: Apprentissage du renforcement: Le modèle s'attaque aux tâches RL, à gagner des récompenses pour la précision, la cohérence et l'alignement.
  • Étape 3: Fonction avec l'échantillonnage de rejet: Les sorties RL à tuneaux fins du système et renforcent les modèles de raisonnement optimaux.

4. Distillation

  • Les modèles plus grands sont distillés en versions plus petites, préservant les performances du raisonnement tout en réduisant considérablement les coûts de calcul.
  • Les modèles distillés héritent des capacités des homologues plus grands, comme Deepseek-R1, sans perte de performance substantielle.

Modèles R1 Deepseek

Deepseek R1 comprend deux modèles de noyau et six distillés.

Modèles de base

Deepseek-R1-Zero: Formé uniquement via RL sur un modèle de base, sans SFT. Il présente des comportements de raisonnement avancés comme l'auto-vérification et la réflexion, obtenant de solides résultats sur des repères tels que l'AIME 2024 et lesforces de code. Les défis incluent la lisibilité et le mélange de langues en raison du manque de données de démarrage à froid et de réglage fin structuré.

Deepseek-R1: s'appuie sur Deepseek-R1-Zero en incorporant des données de démarrage à froid (exemples de COT long annoté par l'homme) pour une meilleure initialisation. Il utilise une formation en plusieurs étapes, y compris l'échantillonnage de RL et de rejet axé sur le raisonnement pour un meilleur alignement humain.

DeepSeek R1: OpenAI o1 Biggest Competitor is HERE!

Il rivalise directement avec O1-1217 d'OpenAI, réalisant:

  • AIME 2024 : passer @ 1 score de 79,8%, dépassant légèrement O1-1217.
  • MATH-500 : passer @ 1 score de 97,3%, comparable à O1-1217.

Il excelle dans les tâches à forte intensité de connaissances et STEM et les défis de codage.

Modèles distillés: Deepseek-AI a également libéré des versions distillées du modèle R1, garantissant que des modèles plus petits et efficaces sur le calcul conservent les capacités de raisonnement de leurs homologues plus grands. Il s'agit notamment des modèles QWEN et LLAMA. Ces modèles plus petits surpassent les concurrents open source comme QWQ-32B-Preview tout en rivalisant efficacement avec des modèles propriétaires comme O1-MinI d'Openai.

DeepSeek R1: OpenAI o1 Biggest Competitor is HERE!

Fonctionnalités de la clé R1 Deepseek

Modèles Deepseek-R1 rivaux LLMS de tête. Des références comme AIME 2024, MATH-500 et Codeforces affichent des performances compétitives ou supérieures par rapport à l'O1-1217 d'Openai et à Claude Sonnet 3 d'Anthropic.

Accédant à R1

Accès Web: Contrairement à O1 d'OpenAI, R1 de Deepseek est gratuit via son interface de chat.

    allez à:
  • https://www.php.cn/link/9f3ad7a14cd3d1cf5d73e8ec7205e7f1
  • Inscrivez-vous et sélectionnez Deepthink.
  • Deepthink R1 est automatiquement sélectionné.

DeepSeek R1: OpenAI o1 Biggest Competitor is HERE!

Accès de l'API: Accédez à l'API à https://www.php.cn/link/23264092bdaf8349c3cec606151be6bd . Avec de faibles coûts d'entrée, Deepseek-R1 est nettement plus abordable que de nombreux modèles propriétaires.

DeepSeek R1: OpenAI o1 Biggest Competitor is HERE!

Applications

  • Éducation STEM: sa forte performance dans les références mathématiques le rend idéal pour aider les éducateurs et les étudiants.
  • Codage et développement de logiciels: Haute performances sur des plates-formes telles que Codeforces et LiveCodeBench le rendent bénéfique pour les développeurs.
  • Tâches de connaissances générales: Son succès sur les références comme GPQA Diamond le positionne comme un outil puissant pour le raisonnement basé sur les faits.

Conclusion

Deepseek-ai Open-source of Deepseek-R1, y compris les versions distillées, démocratise l'accès à des capacités de raisonnement de haute qualité. Cela favorise la collaboration et l'innovation. Deepseek-R1 représente des progrès significatifs, combinant la flexibilité open source avec les performances de pointe. Son potentiel pour transformer le raisonnement à travers les industries positionne Deepseek-ai en tant qu'acteur majeur de la révolution de l'IA.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal