Maison > Périphériques technologiques > IA > Deepp a publié le jour 2 de la semaine open source à Deepseek

Deepp a publié le jour 2 de la semaine open source à Deepseek

尊渡假赌尊渡假赌尊渡假赌
Libérer: 2025-03-03 19:05:18
original
931 Les gens l'ont consulté

Deepseek est ici avec son jour 2 de #OpenSourceweek et aujourd'hui, ils ont introduit DeepPep - une bibliothèque de communication EP open source pour la formation et l'inférence du modèle MOE. Jusqu'à présent, j'ai été complètement impressionné par Deepseek et leur réponse aux modèles d'un milliard de dollars d'Openai, Meta et plus encore. Maintenant, ils sont ouverts dans les éléments constitutifs de l'exploration d'AGI. Avec les 5 dépositions (2 déjà publiées), ils mettent en valeur l'engagement en matière de transparence, de collaboration communautaire et d'avancement dans l'IA.

Le jour 1, l'équipe de Deepseek a publié Flashmla et vous pouvez en lire ici - Deepseek #OpenSourceweek Day 1: Sortie de FlashMla.

Aujourd'hui, nous allons parler du deepp en détail.

Faits saillants de la clé de la version

  • COMMUNICATION EFFICACE ET OPTIMISE TOUT-TOUT
  • INTRANODE ET ENTERNODE Soutien avec NVLink et RDMA
  • grains à haut débit pour la formation et le préfills d'inférence
  • grains de faible latence pour le décodage d'inférence
  • support de répartition FP8 native
  • Contrôle des ressources GPU flexible pour la communication de calcul chevauchant

Table des matières

  • DeepP: Bibliothèque de communication optimisée pour le MOE et le parallélisme expert
  • Pourquoi Deepseek l'ouvre?
  • Qu'est-ce qu'un mélange d'experts (MOE)?
  • Comment fonctionne-t-il dans les modèles de transformateur? Modèles
    À quel point DeepPEP est un changeur de jeu et ce qu'il offre?
  • Efficace et optimisé de la communication
    • Intranode et de la prise en charge de l'internes avec NVLink et RDMA
    • High-Throughput Lernel pour l'entraînement pour l'entraînement pour l'entraînement pour l'entraînement pour l'entraînement inférieur
    • décodage
    • support de répartition FP8 natif
    • Contrôle des ressources GPU flexible pour le chevauchement des communications de calcul
    • Essayez de vous profonde
    DeepP: Bibliothèque de communication optimisée pour le MOE et le parallélisme expert
  • DeepPE est une bibliothèque de communication haute performance conçue spécifiquement pour le mélange d'Experts (MOE) et le parallélisme expert (EP). Il dispose de noyaux GPU tous à tous à tous - communément appelés MOE Dispatch and Combine - disant un débit exceptionnel et une latence minimale. De plus, DeepEP prend en charge les calculs à faible précision, y compris FP8, garantissant la flexibilité des charges de travail en profondeur.
  • Pour compléter l'algorithme de déclenchement limité en groupe introduit dans le papier Deepseek-V3, DeepEP fournit des noyaux spécialisés adaptés à un transfert de bande passante du domaine asymétrique. Ces noyaux optimisent les transferts de données entre différents domaines matériels, tels que NVLink et RDMA, maximisant le débit pour les tâches de formation de formation et d'inférence. De plus, la bibliothèque comprend des contrôles intégrés pour gérer l'utilisation des multiprocesseurs en streaming (SM).
  • Pour les scénarios d'inférence qui exigent une latence ultra-bas, en particulier pendant le décodage, DeepPe intègre un ensemble dédié de noyaux RDMA uniquement pour réduire considérablement les retards de communication. De plus, il utilise une approche innovante basée sur le crochet pour chevaucher la communication avec le calcul - sans consommation de ressources SM - en infirmier une efficacité optimale.

    Pourquoi Deepseek l'ouvre?

    La décision de Deepseek d'ouvrir la source de sa technologie consiste à rendre l'IA de pointe accessible à tous. En partageant ses innovations, il habilite les développeurs, les chercheurs et les entreprises dans toutes les industries - que ce soit dans les soins de santé, la science du climat ou la défense - pour repousser les limites et construire des solutions encore plus avancées. L'Open d'accès favorise la collaboration accélère les percées et garantit que le développement de l'IA n'est pas limité à quelques privilégiés.

    DeepPE est la «première bibliothèque de communication EP open source pour la formation et l'inférence du modèle MOE».

    et la meilleure partie? Les outils de Deepseek sont disponibles sur GitHub, ce qui permet à quiconque d'explorer, de contribuer et d'affiner davantage la technologie.

    Maintenant, comprenons ce qu'est le mélange d'experts (MOE)

    Qu'est-ce qu'un mélange d'experts (MOE)?

    Deepp a publié le jour 2 de la semaine open source à Deepseek

    La taille d'un modèle joue un rôle crucial dans la détermination de sa qualité. Avec un budget de calcul fixe, il est généralement plus efficace de former un modèle plus large pour moins d'étapes plutôt qu'un modèle plus petit pour plus d'étapes. C'est là que le mélange d'experts (MOE) entre en jeu - il permet aux modèles d'évoluer de manière significative tout en optimisant l'efficacité de calcul.

    MOE est une architecture de réseau neuronal conçue pour optimiser la formation et l'inférence du modèle en activant sélectivement un sous-ensemble de paramètres pendant le calcul. Cela permet l'utilisation de modèles beaucoup plus grands sans augmentation proportionnelle du coût de calcul.

    MOE se compose principalement de deux composants clés

  1. Calques de MOE clairsemées - Celles-ci remplacent les couches traditionnelles de réseau d'alimentation dense (FFN). Au lieu d'une seule FFN, les couches MOE se composent de plusieurs experts (par exemple, 8 réseaux séparés). Chaque expert fonctionne comme un réseau neuronal autonome, généralement un FFN, mais dans certains cas, ces experts peuvent être des structures plus complexes ou même des moes hiérarchiques.
  2. Router ou Gate Network - Ce mécanisme détermine quels jetons sont affectés à quels experts. Par exemple, dans une séquence donnée, un jeton peut être dirigé vers l'expert 2, tandis qu'un autre est traité par l'expert 1. Un choix de conception clé dans le MOE est la façon dont les jetons sont distribués entre les experts. Le mécanisme de routage est régi par des paramètres d'apprentissage qui sont formés aux côtés du reste du modèle.

Comment MOE fonctionne-t-il dans les modèles de transformateurs?

Dans un modèle de transformateur standard, chaque jeton est traité à travers des couches FFN denses. Cependant, dans les modèles MOE, ces couches FFN denses sont remplacées par des couches MOE, composées de plusieurs experts et d'un mécanisme de déclenchement. Pendant l'inférence et la formation, seul un sous-ensemble de ces experts est activé par jeton, réduisant le calcul global tout en maintenant la capacité du modèle.

Avantages des modèles MOE

  • pré-entraînement efficace - MOE permet de préteindre de grands modèles avec des exigences de calcul significativement plus faibles par rapport aux modèles denses, permettant aux chercheurs de former des modèles plus rapidement sans coûts matériels excessifs.
  • Inférence plus rapide - Étant donné qu'une partie des paramètres du modèle est utilisée à tout moment, l'inférence est considérablement plus efficace par rapport à un modèle dense de taille totale équivalente.
  • Évolutivité - MOE permet aux chercheurs d'augmenter la taille du modèle et la taille de l'ensemble de données tout en restant dans le même budget de calcul qu'un modèle dense.

Le mélange d'experts (MOE) est une approche puissante pour l'échelle des modèles de transformateurs efficacement, ce qui permet de former des modèles massifs avec des coûts de calcul réduits. En remplaçant les couches FFN denses traditionnelles par des couches MOE clairsemées et en utilisant un mécanisme de routage, ces modèles atteignent une évolutivité élevée et des vitesses d'inférence améliorées. Cependant, les compromis comprennent une augmentation des demandes de mémoire, des complexités de formation et le défi de concevoir une stratégie de routage efficace. Alors que la recherche se poursuit, les architectures basées sur le MOE sont susceptibles de jouer un rôle important dans la prochaine génération de modèles d'IA.

Comment OpenSourcing Deepp change la donne et ce qu'il offre?

1. Communication tout à toutes efficace et optimisée

Pour former et déployer efficacement les modèles MOE, la communication transparente entre les nœuds est essentielle - à la fois dans une seule machine (intranode) et sur plusieurs machines (Internode). DeepEP relève ce défi avec une communication très optimisée, assurant un transfert de données rapide et efficace, la minimisation des goulots d'étranglement et la maximisation des performances.

2. Intranode et entre-code Prise en charge avec NVLink et RDMA

Deepp va au-delà de la communication de base, permettant une connectivité intranode et entre-nappe sans couture via des technologies avancées comme NVLink et RDMA (accès à la mémoire directe distante). NvLink, l'interconnexion à grande vitesse de NVIDIA, accélère l'échange de données dans les nœuds, tandis que RDMA minimise la latence dans les transferts de nœuds, garantissant des performances optimales pour les systèmes d'IA à grande échelle. Ces innovations redéfinissent collectivement l'efficacité, faisant de DeepPep une centrale électrique pour les charges de travail d'IA de nouvelle génération.

3. Grains à haut débit pour la formation et le préfills d'inférence

Deepp est conçu pour gérer efficacement les données à grande échelle. Ses grains à grande vitesse permettent une formation rapide en optimisant comment les données se déplacent dans le système. Pendant le préfiltrage d'inférence, ces noyaux traitent rapidement les lots importants, garantissant des performances lisses et efficaces sans goulot d'étranglement.

4. Grains de faible latence pour le décodage d'inférence

En ce qui concerne les prédictions en temps réel, la vitesse est tout. Les noyaux à faible latence de DeepEP minimisent les retards pendant le décodage d'inférence, fournissant des réponses instantanées avec un décalage minimal. Cela le rend idéal pour les applications qui exigent une prise de décision rapide et des expériences d'utilisateurs sans couture.

5. Support de répartition FP8 native

Deepp se démarque avec son support FP8 (point flottant 8) intégré, un format de pointe qui augmente la vitesse et réduit l'utilisation de la mémoire - parfait pour l'échelle des modèles d'IA. En intégrant FP8, Deepseek garantit que la bibliothèque reste en avance sur l'évolution du matériel et des algorithmes d'IA. Cela signifie une formation plus rapide, une baisse des coûts énergétiques et une voie plus efficace vers le développement durable de l'IA.

6. Contrôle des ressources GPU flexible pour la communication de calcul chevauchant

Deepp optimise l'utilisation du GPU en permettant un calcul et un transfert de données simultanés, en minimisant les temps d'arrêt et en maximisant les performances. Idéal pour les projets d'IA à grande échelle, il aide les chercheurs et les entreprises à économiser du temps et des coûts tout en évoluant efficacement.

Essayez Deepp vous-même

Visitez le référentiel GitHub - Trouvez le code source, les documents et les exemples de DeepP sur GitHub pour commencer rapidement.

Deepp a publié le jour 2 de la semaine open source à Deepseek

Explorez la documentation - Apprenez à utiliser les fonctionnalités clés de DeepPE comme NVLink, RDMA et FP8 avec des conseils clairs et étape par étape.

Enfin, vous pouvez tirer parti de n'importe quel outil pour tester et intégrer DeepP.

Conclusion

Deepseek a publié DeepPe le jour 2 de la semaine open source. Cela change la donne pour le mélange d'experts (MOE), la formation et l'inférence du modèle. Deepseek propose une bibliothèque de communication EP open-source haute performance. Il stimule l'efficacité, réduit la latence et améliore la gestion des ressources pour les charges de travail d'IA à grande échelle. DeepEP prend en charge NVLink, RDMA, FP8 et le chevauchement de communication de calcul sans couture. Cela permet aux développeurs et aux chercheurs de faire progresser l'innovation de l'IA. L'engagement open-source de Deepseek accélère les progrès de l'AGI. Il rend les outils d'IA de pointe plus accessibles à l'échelle mondiale.

Restez à l'écoute toanalytics vidhya blog pour notre analyse détaillée sur la version du jour 3 de Deepseek!

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal