Maison Périphériques technologiques IA Deepgemm sorti le jour 3 de Deepseek Open Source Week

Deepgemm sorti le jour 3 de Deepseek Open Source Week

Mar 03, 2025 pm 06:58 PM

Deepseek publie Deepgemm: une bibliothèque GEMM FP8 haute performance pour Ai

Dans le cadre de #OpenSourceweek, Deepseek a dévoilé DeepgeMM, une bibliothèque de pointe optimisée pour les multiplications efficaces de la matrice générale FP8 (GEMMS). Cette bibliothèque prend en charge les gemmes denses et du mélange de mélange (MOE), se révélant inestimable pour la formation et l'inférence du modèle V3 / R1. Deepgemm vise à augmenter considérablement les performances et l'efficacité des charges de travail de l'IA, renforçant l'engagement de Deepseek à l'innovation open source.

? Jour 3 de #OpenSourceweek: Deepgemm

Présentation de DeepgeMM - Une bibliothèque GEMM FP8 prenant en charge les gemms denses et Moe, alimentant la formation et l'inférence V3 / R1.

⚡ Jusqu'à 1350 fp8 tflops sur les gpus de trémie
✅ Dépendances minimales, conçues pour la facilité d'utilisation
✅ Compilé entièrement juste à temps…

- Deepseek (@deepseek_ai) 26 février 2025

Cette version suit les lancements réussis de Deepseek Flashml (Jour 1) et Deepseek DeepPe (Jour 2).

Table des matières

  • Qu'est-ce que GEMM?
  • Qu'est-ce que FP8?
  • La nécessité de Deepgemm
  • Caractéristiques clés de Deepgemm
  • Benchmarks de performance
  • Instructions d'installation
  • Conclusion

Qu'est-ce que GEMM?

La multiplication de la matrice générale (GEMM) est une opération d'algèbre linéaire fondamentale multipliant deux matrices pour en produire un troisième. Largement utilisé dans de nombreuses applications, sa formule est:

DeepGEMM Released on Day 3 of DeepSeek Open Source Week

GEMM est crucial pour l'optimisation des performances du modèle, en particulier dans l'apprentissage en profondeur pour la formation et l'inférence du réseau neuronal.

DeepGEMM Released on Day 3 of DeepSeek Open Source Week

Cette illustration montre GEMM, mettant en évidence le carrelage (divisant les matrices en blocs plus petits - mtile, ntile, ktile) pour une utilisation optimisée du cache. Cela améliore les performances grâce à une localité et à un parallélisme améliorées.

Qu'est-ce que FP8?

FP8 (point flottant 8 bits) est un format informatique haute performance offrant une précision réduite et une représentation efficace des données numériques. Il est particulièrement avantageux pour gérer les demandes de calcul des grands ensembles de données dans l'apprentissage automatique.

Le format FP8 typique comprend:

  • 1 bit de signe
  • 5 bits d'exposant
  • 2 bits de fraction

Cette structure compacte permet des calculs plus rapides et une utilisation réduite de la mémoire, idéale pour la formation de grands modèles. Bien que la précision puisse être légèrement compromise, cela est souvent acceptable, conduisant même à des gains de performance en raison d'une réduction des frais de calcul.

DeepGEMM Released on Day 3 of DeepSeek Open Source Week

Cette image compare les formats FP8 (E4M3 et E5M2) avec FP16 et BF16, illustrant les compromis entre précision et plage pour différents formats à virgule flottante.

La nécessité de Deepgemm

Deepgemm relève des défis de multiplication de la matrice en offrant une bibliothèque légère, haute performance et conviviale pour diverses opérations GEMM.

  • remplit un besoin critique de GEMM FP8 optimisé dans la communauté AI.
  • haute performance avec une petite empreinte mémoire.
  • prend en charge les dispositions denses et MOE.
  • crucial pour la formation et l'exécution du modèle d'IA à grande échelle.
  • optimise les architectures MOE avec des types de gemm spécialisés.
  • améliore directement les modèles AI de Deepseek.
  • profite à l'écosystème de développement d'IA plus large.

Caractéristiques clés de Deepgemm

Les forces de Deepgemm incluent:

  • Haute performance: atteint jusqu'à 1350 FP8 Tflop
  • Conception légère: Dépendances minimales pour une utilisation simplifiée.
  • Compilation juste à temps: compile les noyaux au moment de l'exécution pour une expérience utilisateur rationalisée.
  • Logique de base concise: Environ 300 lignes de code central, surperformant de nombreux noyaux réglés par des experts.
  • Soutien pour diverses dispositions: prend en charge les dispositions denses et deux MOE.

Benchmarks de performance

L'efficacité de Deepgemm sur diverses configurations de matrice est illustrée ci-dessous:

/ Styles personnalisés pour la table / .custom-table { Largeur: 100%; Border-Collapse: s'effondrer; / garantit que les frontières ne doublent pas / marge: 20px 0; } .custom-table th, .custom-table td { bordure: 1px solide # 000; / Borders visibles / rembourrage: 12px; / rembourrage confortable / Texte-aligne: Centre; / texte centré / } .custom-table th { Color d'arrière-plan: # F8F9FA; / gris clair pour l'en-tête / Police-poids: Bold; } / ajustements réactifs / @media (max-large: 768px) { .custom-table th, .custom-table td { taille de police: 14px; / Texte plus petit sur des écrans plus petits / rembourrage: 8px; } }

Tableau 1: Benchmarks de performance DeepGemm

Instructions d'installation

L'installation Deepgemm est simple:

Étape 1: Prérequis

  • Hopper Architecture GPUS (SM_90A)
  • python 3.8
  • CUDA 12.3 (recommandé: 12.8)
  • pytorch 2.1
  • Cutlass 3.6 (peut être un sous-module GIT)

Étape 2: cloner le référentiel

git clone --recursive [email protected]:deepseek-ai/DeepGEMM.git
Copier après la connexion

Étape 3: Installez la bibliothèque

python setup.py install
Copier après la connexion

Étape 4: Importer Deepgemm

import deep_gemm
Copier après la connexion

Voir le référentiel DeepGemm Github pour des instructions détaillées.

Conclusion

Deepgemm est une bibliothèque FP8 GEMM FP8 à haute performance et conviviale idéale pour les tâches avancées d'apprentissage automatique. Sa conception légère, sa vitesse et sa flexibilité en font un outil précieux pour les développeurs d'IA. Consultez le blog Analytics Vidhya pour les mises à jour sur la version du jour 4 de Deepseek!

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet
4 Il y a quelques semaines By DDD
<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Système de fusion, expliqué
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1677
14
Tutoriel PHP
1279
29
Tutoriel C#
1257
24
Comment construire des agents d'IA multimodaux à l'aide d'AGNO Framework? Comment construire des agents d'IA multimodaux à l'aide d'AGNO Framework? Apr 23, 2025 am 11:30 AM

Tout en travaillant sur une IA agentique, les développeurs se retrouvent souvent à naviguer dans les compromis entre la vitesse, la flexibilité et l'efficacité des ressources. J'ai exploré le cadre de l'IA agentique et je suis tombé sur Agno (plus tôt c'était Phi-

Openai change de mise au point avec GPT-4.1, priorise le codage et la rentabilité Openai change de mise au point avec GPT-4.1, priorise le codage et la rentabilité Apr 16, 2025 am 11:37 AM

La version comprend trois modèles distincts, GPT-4.1, GPT-4.1 Mini et GPT-4.1 Nano, signalant une évolution vers des optimisations spécifiques à la tâche dans le paysage du modèle grand langage. Ces modèles ne remplacent pas immédiatement les interfaces orientées utilisateur comme

Comment ajouter une colonne dans SQL? - Analytique Vidhya Comment ajouter une colonne dans SQL? - Analytique Vidhya Apr 17, 2025 am 11:43 AM

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Simulation et analyse de lancement de fusées à l'aide de Rocketpy - Analytics Vidhya Simulation et analyse de lancement de fusées à l'aide de Rocketpy - Analytics Vidhya Apr 19, 2025 am 11:12 AM

Simuler les lancements de fusée avec Rocketpy: un guide complet Cet article vous guide à travers la simulation des lancements de fusées haute puissance à l'aide de Rocketpy, une puissante bibliothèque Python. Nous couvrirons tout, de la définition de composants de fusée à l'analyse de Simula

Deepcoder-14b: la compétition open source à O3-MinI et O1 Deepcoder-14b: la compétition open source à O3-MinI et O1 Apr 26, 2025 am 09:07 AM

Dans un développement significatif pour la communauté de l'IA, Agetica et ensemble AI ont publié un modèle de codage d'IA open source nommé Deepcoder-14b. Offrir des capacités de génération de code à égalité avec des concurrents à source fermée comme OpenAI

L'invite: Chatgpt génère de faux passeports L'invite: Chatgpt génère de faux passeports Apr 16, 2025 am 11:35 AM

Le géant de la puce Nvidia a déclaré lundi qu'il commencerait à fabriquer des superordinateurs d'IA - des machines qui peuvent traiter de grandes quantités de données et exécuter des algorithmes complexes - entièrement aux États-Unis pour la première fois. L'annonce intervient après le président Trump Si

Guy Peri aide à savourer l'avenir de McCormick grâce à la transformation des données Guy Peri aide à savourer l'avenir de McCormick grâce à la transformation des données Apr 19, 2025 am 11:35 AM

Guy Peri est le principal officier des informations et du numérique de McCormick. Bien que seulement sept mois dans son rôle, Peri fait rapidement progresser une transformation complète des capacités numériques de l'entreprise. Sa concentration sur la carrière sur les données et l'analyse informe

Gen-4 de la piste AI: Comment Ai Montage peut-il aller au-delà de l'absurdité Gen-4 de la piste AI: Comment Ai Montage peut-il aller au-delà de l'absurdité Apr 16, 2025 am 11:45 AM

L'industrie cinématographique, aux côtés de tous les secteurs créatifs, du marketing numérique aux médias sociaux, se dresse à un carrefour technologique. Alors que l'intelligence artificielle commence à remodeler tous les aspects de la narration visuelle et à changer le paysage du divertissement

See all articles