Deepseek est ici avec son jour 2 de #OpenSourceweek et aujourd'hui, ils ont introduit DeepPep - une bibliothèque de communication EP open source pour la formation et l'inférence du modèle MOE. Jusqu'à présent, j'ai été complètement impressionné par Deepseek et leur réponse aux modèles d'un milliard de dollars d'Openai, Meta et plus encore. Maintenant, ils sont ouverts dans les éléments constitutifs de l'exploration d'AGI. Avec les 5 dépositions (2 déjà publiées), ils mettent en valeur l'engagement en matière de transparence, de collaboration communautaire et d'avancement dans l'IA.
Le jour 1, l'équipe de Deepseek a publié Flashmla et vous pouvez en lire ici - Deepseek #OpenSourceweek Day 1: Sortie de FlashMla.
Aujourd'hui, nous allons parler du deepp en détail.
Faits saillants de la clé de la version
Pour les scénarios d'inférence qui exigent une latence ultra-bas, en particulier pendant le décodage, DeepPe intègre un ensemble dédié de noyaux RDMA uniquement pour réduire considérablement les retards de communication. De plus, il utilise une approche innovante basée sur le crochet pour chevaucher la communication avec le calcul - sans consommation de ressources SM - en infirmier une efficacité optimale.
La décision de Deepseek d'ouvrir la source de sa technologie consiste à rendre l'IA de pointe accessible à tous. En partageant ses innovations, il habilite les développeurs, les chercheurs et les entreprises dans toutes les industries - que ce soit dans les soins de santé, la science du climat ou la défense - pour repousser les limites et construire des solutions encore plus avancées. L'Open d'accès favorise la collaboration accélère les percées et garantit que le développement de l'IA n'est pas limité à quelques privilégiés.
DeepPE est la «première bibliothèque de communication EP open source pour la formation et l'inférence du modèle MOE».
et la meilleure partie? Les outils de Deepseek sont disponibles sur GitHub, ce qui permet à quiconque d'explorer, de contribuer et d'affiner davantage la technologie.
Maintenant, comprenons ce qu'est le mélange d'experts (MOE)
La taille d'un modèle joue un rôle crucial dans la détermination de sa qualité. Avec un budget de calcul fixe, il est généralement plus efficace de former un modèle plus large pour moins d'étapes plutôt qu'un modèle plus petit pour plus d'étapes. C'est là que le mélange d'experts (MOE) entre en jeu - il permet aux modèles d'évoluer de manière significative tout en optimisant l'efficacité de calcul.
MOE est une architecture de réseau neuronal conçue pour optimiser la formation et l'inférence du modèle en activant sélectivement un sous-ensemble de paramètres pendant le calcul. Cela permet l'utilisation de modèles beaucoup plus grands sans augmentation proportionnelle du coût de calcul.
Dans un modèle de transformateur standard, chaque jeton est traité à travers des couches FFN denses. Cependant, dans les modèles MOE, ces couches FFN denses sont remplacées par des couches MOE, composées de plusieurs experts et d'un mécanisme de déclenchement. Pendant l'inférence et la formation, seul un sous-ensemble de ces experts est activé par jeton, réduisant le calcul global tout en maintenant la capacité du modèle.
Le mélange d'experts (MOE) est une approche puissante pour l'échelle des modèles de transformateurs efficacement, ce qui permet de former des modèles massifs avec des coûts de calcul réduits. En remplaçant les couches FFN denses traditionnelles par des couches MOE clairsemées et en utilisant un mécanisme de routage, ces modèles atteignent une évolutivité élevée et des vitesses d'inférence améliorées. Cependant, les compromis comprennent une augmentation des demandes de mémoire, des complexités de formation et le défi de concevoir une stratégie de routage efficace. Alors que la recherche se poursuit, les architectures basées sur le MOE sont susceptibles de jouer un rôle important dans la prochaine génération de modèles d'IA.
Pour former et déployer efficacement les modèles MOE, la communication transparente entre les nœuds est essentielle - à la fois dans une seule machine (intranode) et sur plusieurs machines (Internode). DeepEP relève ce défi avec une communication très optimisée, assurant un transfert de données rapide et efficace, la minimisation des goulots d'étranglement et la maximisation des performances.
Deepp va au-delà de la communication de base, permettant une connectivité intranode et entre-nappe sans couture via des technologies avancées comme NVLink et RDMA (accès à la mémoire directe distante). NvLink, l'interconnexion à grande vitesse de NVIDIA, accélère l'échange de données dans les nœuds, tandis que RDMA minimise la latence dans les transferts de nœuds, garantissant des performances optimales pour les systèmes d'IA à grande échelle. Ces innovations redéfinissent collectivement l'efficacité, faisant de DeepPep une centrale électrique pour les charges de travail d'IA de nouvelle génération.
Deepp est conçu pour gérer efficacement les données à grande échelle. Ses grains à grande vitesse permettent une formation rapide en optimisant comment les données se déplacent dans le système. Pendant le préfiltrage d'inférence, ces noyaux traitent rapidement les lots importants, garantissant des performances lisses et efficaces sans goulot d'étranglement.
En ce qui concerne les prédictions en temps réel, la vitesse est tout. Les noyaux à faible latence de DeepEP minimisent les retards pendant le décodage d'inférence, fournissant des réponses instantanées avec un décalage minimal. Cela le rend idéal pour les applications qui exigent une prise de décision rapide et des expériences d'utilisateurs sans couture.
Deepp se démarque avec son support FP8 (point flottant 8) intégré, un format de pointe qui augmente la vitesse et réduit l'utilisation de la mémoire - parfait pour l'échelle des modèles d'IA. En intégrant FP8, Deepseek garantit que la bibliothèque reste en avance sur l'évolution du matériel et des algorithmes d'IA. Cela signifie une formation plus rapide, une baisse des coûts énergétiques et une voie plus efficace vers le développement durable de l'IA.
Deepp optimise l'utilisation du GPU en permettant un calcul et un transfert de données simultanés, en minimisant les temps d'arrêt et en maximisant les performances. Idéal pour les projets d'IA à grande échelle, il aide les chercheurs et les entreprises à économiser du temps et des coûts tout en évoluant efficacement.
Visitez le référentiel GitHub - Trouvez le code source, les documents et les exemples de DeepP sur GitHub pour commencer rapidement.
Explorez la documentation - Apprenez à utiliser les fonctionnalités clés de DeepPE comme NVLink, RDMA et FP8 avec des conseils clairs et étape par étape.
Enfin, vous pouvez tirer parti de n'importe quel outil pour tester et intégrer DeepP.
Deepseek a publié DeepPe le jour 2 de la semaine open source. Cela change la donne pour le mélange d'experts (MOE), la formation et l'inférence du modèle. Deepseek propose une bibliothèque de communication EP open-source haute performance. Il stimule l'efficacité, réduit la latence et améliore la gestion des ressources pour les charges de travail d'IA à grande échelle. DeepEP prend en charge NVLink, RDMA, FP8 et le chevauchement de communication de calcul sans couture. Cela permet aux développeurs et aux chercheurs de faire progresser l'innovation de l'IA. L'engagement open-source de Deepseek accélère les progrès de l'AGI. Il rend les outils d'IA de pointe plus accessibles à l'échelle mondiale.
Restez à l'écoute toanalytics vidhya blog pour notre analyse détaillée sur la version du jour 3 de Deepseek!
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!