Table des matières
L'utilisation de la précision FP6 sur A100 apporte
Afin de prendre en charge la précision, y compris 6 bits, l'équipe TC-FPx a conçu une solution de noyau unifiée qui peut prendre en charge des poids de quantification de différentes largeurs de bits.
Maison Périphériques technologiques IA Une seule carte exécute Llama 70B plus rapidement que deux cartes, Microsoft vient de mettre le FP6 dans l'Open source A100 |

Une seule carte exécute Llama 70B plus rapidement que deux cartes, Microsoft vient de mettre le FP6 dans l'Open source A100 |

Apr 29, 2024 pm 04:55 PM
数据 模型 开源 数据访问 arrangement

FP8 et la précision de quantification inférieure en virgule flottante ne sont plus le « brevet » du H100 !

Lao Huang voulait que tout le monde utilise INT8/INT4. L'équipe Microsoft DeepSpeed ​​​​a commencé à exécuter de force FP6 sur A100 sans le support officiel de NVIDIA.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

Les résultats des tests montrent que la vitesse de quantification FP6 de la nouvelle méthode TC-FPx sur l'A100 est proche ou même parfois dépasse INT4, et qu'elle a une précision plus élevée que cette dernière. Sur cette base, il existe également un

support de bout en bout de grands modèles, qui a été open source et intégré dans des cadres d'inférence d'apprentissage profond tels que DeepSpeed. Ce résultat a également un effet immédiat sur l'accélération des grands modèles : dans ce cadre, en utilisant une seule carte pour exécuter Llama, le débit est 2,65 fois supérieur à celui des cartes doubles.

Après l'avoir lu, un chercheur en apprentissage automatique a déclaré que les recherches de Microsoft pouvaient être qualifiées de folles.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源les packs d'émoticônes sont également en ligne immédiatement, soyez comme :

NVIDIA : Seul le H100 supporte le FP8.

Microsoft : Très bien, je le ferai moi-même.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源Alors, quels types d'effets ce cadre peut-il produire et quel type de technologie est utilisé derrière ?

En utilisant FP6 pour exécuter Llama, une seule carte est plus rapide que deux cartes

L'utilisation de la précision FP6 sur A100 apporte

amélioration des performances au niveau du noyau. Les chercheurs ont sélectionné des couches linéaires dans des modèles Llama et des modèles OPT de différentes tailles et les ont testés à l'aide de CUDA 11.8 sur la plate-forme GPU NVIDIA A100-40GB.

Les résultats se comparent à ceux officiels de NVIDIA cuBLAS

(W16A16)

et TensorRT-LLM(W8A16), TC-FPx(W6A16)speedL'amélioration de la vitesse maximale est respectivement de 2,6 fois et 1,9 fois. Par rapport à la méthode 4 bits BitsandBytes

(W4A16)

, l'amélioration de la vitesse maximale de TC-FPx est de 8,9 fois.

(W et A représentent respectivement la largeur de bit de quantification de poids et la largeur de bit de quantification d'activation)

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源△Données normalisées, le résultat cuBLAS étant 1

En même temps, le noyau TC-FPx réduit également le besoin d'accès à la mémoire DRAM et améliore l'utilisation de la bande passante DRAM et l'utilisation des cœurs Tensor, ainsi que l'utilisation des unités ALU et FMA.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源Le

cadre d'inférence de bout en bout FP6-LLM conçu sur la base de TC-FPx apporte également des améliorations significatives des performances aux grands modèles. En prenant Llama-70B comme exemple, le débit d'exécution de FP6-LLM sur une seule carte est 2,65 fois supérieur à celui du FP16 sur des cartes doubles, et la latence dans les tailles de lots inférieures à 16 est également inférieure à celle du FP16.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源Pour le modèle OPT-30B avec un plus petit nombre de paramètres (FP16 utilise également une seule carte), FP6-LLM apporte également une amélioration significative du débit et une réduction de la latence.

Et la taille de lot maximale prise en charge par une seule carte FP16 dans cette condition n'est que de 4, mais FP6-LLM peut fonctionner normalement avec une taille de lot de 16.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源Alors, comment l'équipe Microsoft a-t-elle réalisé la quantification FP16 sur A100 ?

Solution de noyau repensée

Afin de prendre en charge la précision, y compris 6 bits, l'équipe TC-FPx a conçu une solution de noyau unifiée qui peut prendre en charge des poids de quantification de différentes largeurs de bits.

Par rapport à la méthode traditionnelle dual-core, TC-FPx réduit le nombre d'accès à la mémoire et améliore les performances en intégrant la déquantification et la multiplication matricielle dans un seul cœur.

Le secret principal pour obtenir une quantification de faible précision est de « déguiser » les données de précision FP6 en FP16 grâce à la déquantification, puis de les transmettre au GPU pour le calcul au format FP16.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

Dans le même temps, l'équipe a également utilisé la technologie de pré-emballage au niveau des bits pour résoudre le problème selon lequel le système de mémoire GPU n'est pas compatible avec des largeurs de bits non puissantes de 2 (telles que 6 -peu).

Plus précisément, le pré-packing au niveau des bits est la réorganisation des données de poids avant l'inférence du modèle, y compris la réorganisation des poids quantifiés sur 6 bits afin qu'ils puissent être consultés de manière conviviale pour le système de mémoire GPU.

De plus, étant donné que les systèmes de mémoire GPU accèdent généralement aux données par blocs de 32 ou 64 bits, la technologie de pré-emballage au niveau des bits emballera également des poids de 6 bits afin qu'ils puissent être stockés et accessibles sous la forme de ceux-ci alignés. blocs.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

Une fois le pré-conditionnement terminé, l'équipe de recherche utilise les capacités de traitement parallèle du noyau SIMT pour effectuer une déquantification parallèle sur les poids FP6 dans le registre afin de générer des poids au format FP16.

Les poids FP16 déquantifiés sont reconstruits dans le registre puis envoyés au Tensor Core. Les poids FP16 reconstruits sont utilisés pour effectuer des opérations de multiplication matricielle pour compléter le calcul de la couche linéaire.

Dans ce processus, l'équipe a profité du parallélisme au niveau des bits du noyau SMIT pour améliorer l'efficacité de l'ensemble du processus de déquantification.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

Afin de permettre à la tâche de reconstruction du poids de se dérouler en parallèle, l'équipe a également utilisé une technologie de épissage parallèle des poids.

Plus précisément, chaque poids est divisé en plusieurs parties, et la largeur de bit de chaque partie est une puissance de 2 (comme diviser 6 en 2+4 ou 4+2).

Avant la déquantification, les poids sont d'abord chargés dans des registres à partir de la mémoire partagée. Étant donné que chaque poids est divisé en plusieurs parties, le poids complet doit être reconstruit au niveau du registre au moment de l'exécution.

Afin de réduire les frais d'exécution, TC-FPx propose une méthode d'extraction et d'épissage parallèles des poids. Cette approche utilise deux ensembles de registres pour stocker des segments de 32 poids FP6, en reconstruisant ces poids en parallèle.

Dans le même temps, afin d'extraire et de fusionner les poids en parallèle, il est nécessaire de s'assurer que la disposition initiale des données répond aux exigences de commande spécifiques, de sorte que TC-FPx réorganise les fragments de poids avant de s'exécuter.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

De plus, TC-FPx a également conçu un pipeline logiciel, qui intègre l'étape de déquantification à l'opération de multiplication matricielle de Tensor Core, améliorant l'efficacité globale de l'exécution grâce au parallélisme au niveau des instructions.

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

Adresse papier : https://arxiv.org/abs/2401.14112

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Yolov10 : explication détaillée, déploiement et application en un seul endroit ! Yolov10 : explication détaillée, déploiement et application en un seul endroit ! Jun 07, 2024 pm 12:05 PM

1. Introduction Au cours des dernières années, les YOLO sont devenus le paradigme dominant dans le domaine de la détection d'objets en temps réel en raison de leur équilibre efficace entre le coût de calcul et les performances de détection. Les chercheurs ont exploré la conception architecturale de YOLO, les objectifs d'optimisation, les stratégies d'expansion des données, etc., et ont réalisé des progrès significatifs. Dans le même temps, le recours à la suppression non maximale (NMS) pour le post-traitement entrave le déploiement de bout en bout de YOLO et affecte négativement la latence d'inférence. Dans les YOLO, la conception de divers composants manque d’une inspection complète et approfondie, ce qui entraîne une redondance informatique importante et limite les capacités du modèle. Il offre une efficacité sous-optimale et un potentiel d’amélioration des performances relativement important. Dans ce travail, l'objectif est d'améliorer encore les limites d'efficacité des performances de YOLO à la fois en post-traitement et en architecture de modèle. à cette fin

L'Université Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub L'Université Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub Jun 06, 2024 pm 12:20 PM

La série de référence YOLO de systèmes de détection de cibles a une fois de plus reçu une mise à niveau majeure. Depuis la sortie de YOLOv9 en février de cette année, le relais de la série YOLO (YouOnlyLookOnce) a été passé entre les mains de chercheurs de l'Université Tsinghua. Le week-end dernier, la nouvelle du lancement de YOLOv10 a attiré l'attention de la communauté IA. Il est considéré comme un cadre révolutionnaire dans le domaine de la vision par ordinateur et est connu pour ses capacités de détection d'objets de bout en bout en temps réel, poursuivant l'héritage de la série YOLO en fournissant une solution puissante alliant efficacité et précision. Adresse de l'article : https://arxiv.org/pdf/2405.14458 Adresse du projet : https://github.com/THU-MIG/yo

Aucune donnée OpenAI requise, rejoignez la liste des grands modèles de code ! UIUC publie StarCoder-15B-Instruct Aucune donnée OpenAI requise, rejoignez la liste des grands modèles de code ! UIUC publie StarCoder-15B-Instruct Jun 13, 2024 pm 01:59 PM

À la pointe de la technologie logicielle, le groupe de l'UIUC Zhang Lingming, en collaboration avec des chercheurs de l'organisation BigCode, a récemment annoncé le modèle de grand code StarCoder2-15B-Instruct. Cette réalisation innovante a permis une percée significative dans les tâches de génération de code, dépassant avec succès CodeLlama-70B-Instruct et atteignant le sommet de la liste des performances de génération de code. Le caractère unique de StarCoder2-15B-Instruct réside dans sa stratégie d'auto-alignement pur. L'ensemble du processus de formation est ouvert, transparent et complètement autonome et contrôlable. Le modèle génère des milliers d'instructions via StarCoder2-15B en réponse au réglage fin du modèle de base StarCoder-15B sans recourir à des annotations manuelles coûteuses.

Le modèle 70B génère 1 000 jetons en quelques secondes, la réécriture du code dépasse GPT-4o, de l'équipe Cursor, un artefact de code investi par OpenAI Le modèle 70B génère 1 000 jetons en quelques secondes, la réécriture du code dépasse GPT-4o, de l'équipe Cursor, un artefact de code investi par OpenAI Jun 13, 2024 pm 03:47 PM

Modèle 70B, 1000 tokens peuvent être générés en quelques secondes, ce qui se traduit par près de 4000 caractères ! Les chercheurs ont affiné Llama3 et introduit un algorithme d'accélération. Par rapport à la version native, la vitesse est 13 fois plus rapide ! Non seulement il est rapide, mais ses performances sur les tâches de réécriture de code dépassent même GPT-4o. Cette réalisation vient d'anysphere, l'équipe derrière le populaire artefact de programmation d'IA Cursor, et OpenAI a également participé à l'investissement. Il faut savoir que sur Groq, un framework d'accélération d'inférence rapide bien connu, la vitesse d'inférence de 70BLlama3 n'est que de plus de 300 jetons par seconde. Avec la vitesse de Cursor, on peut dire qu'il permet une édition complète et quasi instantanée des fichiers de code. Certaines personnes l'appellent un bon gars, si tu mets Curs

Les startups d'IA ont collectivement transféré leurs emplois vers OpenAI, et l'équipe de sécurité s'est regroupée après le départ d'Ilya ! Les startups d'IA ont collectivement transféré leurs emplois vers OpenAI, et l'équipe de sécurité s'est regroupée après le départ d'Ilya ! Jun 08, 2024 pm 01:00 PM

" sept péchés capitaux" » Dissiper les rumeurs : selon des informations divulguées et des documents obtenus par Vox, la haute direction d'OpenAI, y compris Altman, était bien au courant de ces dispositions de récupération de capitaux propres et les a approuvées. De plus, OpenAI est confronté à un problème grave et urgent : la sécurité de l’IA. Les récents départs de cinq employés liés à la sécurité, dont deux de ses employés les plus en vue, et la dissolution de l'équipe « Super Alignment » ont une nouvelle fois mis les enjeux de sécurité d'OpenAI sur le devant de la scène. Le magazine Fortune a rapporté qu'OpenA

Revoir! Résumer de manière exhaustive le rôle important des modèles de base dans la promotion de la conduite autonome Revoir! Résumer de manière exhaustive le rôle important des modèles de base dans la promotion de la conduite autonome Jun 11, 2024 pm 05:29 PM

Écrit ci-dessus et compréhension personnelle de l'auteur : Récemment, avec le développement et les percées de la technologie d'apprentissage profond, les modèles de base à grande échelle (Foundation Models) ont obtenu des résultats significatifs dans les domaines du traitement du langage naturel et de la vision par ordinateur. L’application de modèles de base à la conduite autonome présente également de grandes perspectives de développement, susceptibles d’améliorer la compréhension et le raisonnement des scénarios. Grâce à une pré-formation sur un langage riche et des données visuelles, le modèle de base peut comprendre et interpréter divers éléments des scénarios de conduite autonome et effectuer un raisonnement, fournissant ainsi un langage et des commandes d'action pour piloter la prise de décision et la planification. Le modèle de base peut être constitué de données enrichies d'une compréhension du scénario de conduite afin de fournir les rares caractéristiques réalisables dans les distributions à longue traîne qui sont peu susceptibles d'être rencontrées lors d'une conduite de routine et d'une collecte de données.

Quelles sont les dix principales plateformes de trading de devises virtuelles? Quelles sont les dix principales plateformes de trading de devises virtuelles? Feb 20, 2025 pm 02:15 PM

Avec la popularité des crypto-monnaies, des plateformes de trading de devises virtuelles ont émergé. Les dix principales plateformes de trading de devises virtuelles au monde sont classées comme suit selon le volume des transactions et la part de marché: Binance, Coinbase, FTX, Kucoin, Crypto.com, Kraken, Huobi, Gate.io, Bitfinex, Gemini. Ces plateformes offrent un large éventail de services, allant d'un large éventail de choix de crypto-monnaie à la négociation des dérivés, adapté aux commerçants de niveaux différents.

Le scandale des bombardements met en colère le directeur du Stanford AI Lab ! Deux membres de l'équipe de plagiat ont été blâmés et une personne a disparu, et son casier judiciaire a été dévoilé. Net-citoyens : re-comprendre le modèle open source chinois. Le scandale des bombardements met en colère le directeur du Stanford AI Lab ! Deux membres de l'équipe de plagiat ont été blâmés et une personne a disparu, et son casier judiciaire a été dévoilé. Net-citoyens : re-comprendre le modèle open source chinois. Jun 09, 2024 am 09:38 AM

L'incident de l'équipe de Stanford plagiant un grand modèle de l'Université Tsinghua est survenu plus tard - l'équipe Llama3-V a admis le plagiat, et deux des étudiants de premier cycle de Stanford se sont même coupés d'un autre auteur. Les derniers tweets d’excuses ont été envoyés par SiddharthSharma et AkshGarg. Parmi eux, Mustafa Aljadery (Lao Mu en abrégé) de l'Université de Californie du Sud est accusé d'être le principal responsable de la faute et il a disparu depuis hier : Nous espérons que Lao Mu fera la première déclaration, mais nous avons été impossible de le contacter depuis hier. Siddharth, moi-même (Akshi) et Lao Mu avons sorti Llama3-V, et Lao Mu a écrit le code du projet. Siddharth et mon rôle est de l'aider à démarrer sur Medium et T

See all articles