Deepgemm sorti le jour 3 de Deepseek Open Source Week
Deepseek publie Deepgemm: une bibliothèque GEMM FP8 haute performance pour Ai
Dans le cadre de #OpenSourceweek, Deepseek a dévoilé DeepgeMM, une bibliothèque de pointe optimisée pour les multiplications efficaces de la matrice générale FP8 (GEMMS). Cette bibliothèque prend en charge les gemmes denses et du mélange de mélange (MOE), se révélant inestimable pour la formation et l'inférence du modèle V3 / R1. Deepgemm vise à augmenter considérablement les performances et l'efficacité des charges de travail de l'IA, renforçant l'engagement de Deepseek à l'innovation open source.
? Jour 3 de #OpenSourceweek: Deepgemm
Présentation de DeepgeMM - Une bibliothèque GEMM FP8 prenant en charge les gemms denses et Moe, alimentant la formation et l'inférence V3 / R1.
⚡ Jusqu'à 1350 fp8 tflops sur les gpus de trémie
✅ Dépendances minimales, conçues pour la facilité d'utilisation
✅ Compilé entièrement juste à temps…- Deepseek (@deepseek_ai) 26 février 2025
Cette version suit les lancements réussis de Deepseek Flashml (Jour 1) et Deepseek DeepPe (Jour 2).
Table des matières
- Qu'est-ce que GEMM?
- Qu'est-ce que FP8?
- La nécessité de Deepgemm
- Caractéristiques clés de Deepgemm
- Benchmarks de performance
- Instructions d'installation
- Conclusion
Qu'est-ce que GEMM?
La multiplication de la matrice générale (GEMM) est une opération d'algèbre linéaire fondamentale multipliant deux matrices pour en produire un troisième. Largement utilisé dans de nombreuses applications, sa formule est:
GEMM est crucial pour l'optimisation des performances du modèle, en particulier dans l'apprentissage en profondeur pour la formation et l'inférence du réseau neuronal.
Cette illustration montre GEMM, mettant en évidence le carrelage (divisant les matrices en blocs plus petits - mtile, ntile, ktile) pour une utilisation optimisée du cache. Cela améliore les performances grâce à une localité et à un parallélisme améliorées.
Qu'est-ce que FP8?
FP8 (point flottant 8 bits) est un format informatique haute performance offrant une précision réduite et une représentation efficace des données numériques. Il est particulièrement avantageux pour gérer les demandes de calcul des grands ensembles de données dans l'apprentissage automatique.
Le format FP8 typique comprend:
- 1 bit de signe
- 5 bits d'exposant
- 2 bits de fraction
Cette structure compacte permet des calculs plus rapides et une utilisation réduite de la mémoire, idéale pour la formation de grands modèles. Bien que la précision puisse être légèrement compromise, cela est souvent acceptable, conduisant même à des gains de performance en raison d'une réduction des frais de calcul.
Cette image compare les formats FP8 (E4M3 et E5M2) avec FP16 et BF16, illustrant les compromis entre précision et plage pour différents formats à virgule flottante.
La nécessité de Deepgemm
Deepgemm relève des défis de multiplication de la matrice en offrant une bibliothèque légère, haute performance et conviviale pour diverses opérations GEMM.
- remplit un besoin critique de GEMM FP8 optimisé dans la communauté AI.
- haute performance avec une petite empreinte mémoire.
- prend en charge les dispositions denses et MOE.
- crucial pour la formation et l'exécution du modèle d'IA à grande échelle.
- optimise les architectures MOE avec des types de gemm spécialisés.
- améliore directement les modèles AI de Deepseek.
- profite à l'écosystème de développement d'IA plus large.
Caractéristiques clés de Deepgemm
Les forces de Deepgemm incluent:
- Haute performance: atteint jusqu'à 1350 FP8 Tflop
- Conception légère: Dépendances minimales pour une utilisation simplifiée.
- Compilation juste à temps: compile les noyaux au moment de l'exécution pour une expérience utilisateur rationalisée.
- Logique de base concise: Environ 300 lignes de code central, surperformant de nombreux noyaux réglés par des experts.
- Soutien pour diverses dispositions: prend en charge les dispositions denses et deux MOE.
Benchmarks de performance
L'efficacité de Deepgemm sur diverses configurations de matrice est illustrée ci-dessous:
Tableau 1: Benchmarks de performance DeepGemm
Instructions d'installation
L'installation Deepgemm est simple:
Étape 1: Prérequis
- Hopper Architecture GPUS (SM_90A)
- python 3.8
- CUDA 12.3 (recommandé: 12.8)
- pytorch 2.1
- Cutlass 3.6 (peut être un sous-module GIT)
Étape 2: cloner le référentiel
git clone --recursive [email protected]:deepseek-ai/DeepGEMM.git
Étape 3: Installez la bibliothèque
python setup.py install
Étape 4: Importer Deepgemm
import deep_gemm
Voir le référentiel DeepGemm Github pour des instructions détaillées.
Conclusion
Deepgemm est une bibliothèque FP8 GEMM FP8 à haute performance et conviviale idéale pour les tâches avancées d'apprentissage automatique. Sa conception légère, sa vitesse et sa flexibilité en font un outil précieux pour les développeurs d'IA. Consultez le blog Analytics Vidhya pour les mises à jour sur la version du jour 4 de Deepseek!
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Tout en travaillant sur une IA agentique, les développeurs se retrouvent souvent à naviguer dans les compromis entre la vitesse, la flexibilité et l'efficacité des ressources. J'ai exploré le cadre de l'IA agentique et je suis tombé sur Agno (plus tôt c'était Phi-

La version comprend trois modèles distincts, GPT-4.1, GPT-4.1 Mini et GPT-4.1 Nano, signalant une évolution vers des optimisations spécifiques à la tâche dans le paysage du modèle grand langage. Ces modèles ne remplacent pas immédiatement les interfaces orientées utilisateur comme

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Simuler les lancements de fusée avec Rocketpy: un guide complet Cet article vous guide à travers la simulation des lancements de fusées haute puissance à l'aide de Rocketpy, une puissante bibliothèque Python. Nous couvrirons tout, de la définition de composants de fusée à l'analyse de Simula

Dans un développement significatif pour la communauté de l'IA, Agetica et ensemble AI ont publié un modèle de codage d'IA open source nommé Deepcoder-14b. Offrir des capacités de génération de code à égalité avec des concurrents à source fermée comme OpenAI

Le géant de la puce Nvidia a déclaré lundi qu'il commencerait à fabriquer des superordinateurs d'IA - des machines qui peuvent traiter de grandes quantités de données et exécuter des algorithmes complexes - entièrement aux États-Unis pour la première fois. L'annonce intervient après le président Trump Si

Guy Peri est le principal officier des informations et du numérique de McCormick. Bien que seulement sept mois dans son rôle, Peri fait rapidement progresser une transformation complète des capacités numériques de l'entreprise. Sa concentration sur la carrière sur les données et l'analyse informe

L'industrie cinématographique, aux côtés de tous les secteurs créatifs, du marketing numérique aux médias sociaux, se dresse à un carrefour technologique. Alors que l'intelligence artificielle commence à remodeler tous les aspects de la narration visuelle et à changer le paysage du divertissement
