La vitesse d'inférence des grands modèles a doublé en seulement un mois !
Récemment, NVIDIA a annoncé le lancement d'un « package de sang de poulet » spécialement conçu pour le H100, visant à accélérer le processus d'inférence LLM
Peut-être que maintenant vous n'aurez plus à attendre que le GH200 soit livré l'année prochaine.
La puissance de calcul du GPU a toujours affecté les performances des grands modèles. Les fournisseurs de matériel et les utilisateurs espèrent obtenir des vitesses de calcul plus rapides.
En tant que plus grand fournisseur de matériel derrière les grands modèles, NVIDIA a étudié comment matérielr. accélérer les grands modèles.
Grâce à une coopération avec un certain nombre de sociétés d'IA, NVIDIA a finalement lancé le programme d'optimisation d'inférence de grands modèles TensorRT-LLM (provisoirement appelé TensorRT).
TensorRT peut non seulement doubler la vitesse d'inférence des grands modèles, mais est également très pratique à utiliser.
Pas besoin d'avoir une connaissance approfondie de C++ et de CUDA, vous pouvez rapidement personnaliser les stratégies d'optimisation et exécuter de grands modèles plus rapidement sur H100.
Le scientifique de NVIDIA, Jim Fan, a retweeté et commenté que « un autre avantage » de NVIDIA est le logiciel de support qui peut maximiser l'utilisation des performances du GPU.
NVIDIA injecte une nouvelle vitalité dans ses produits grâce à des logiciels, tout comme elle met en œuvre le dicton de Lao Huang « plus vous achetez, plus vous économisez ». Cependant, cela n'empêche pas certains de penser que le prix du produit est trop élevé
En plus du prix, certains internautes ont également remis en question ses résultats d'exploitation :
On voit toujours combien de fois les performances sont améliorées (dans la publicité), mais lorsque j'exécute moi-même Llama 2, je ne peux toujours traiter que des dizaines de jetons par seconde.
Pour TensorRT, nous avons besoin de tests supplémentaires pour déterminer s'il est vraiment efficace. Examinons d'abord de plus près TensorRT
TensorRT-LLM optimisé H100 Quelle est la vitesse d'exécution de grands modèles ?
L'annonce de Nvidia fournit des données pour deux modèles, Llama 2 et GPT-J-6B.
Sur le H100 optimisé, la vitesse d'inférence de Llama 2 est 4,6 fois celle de l'A100 et 1,77 fois celle du H100 non optimisé en août
Et la vitesse d'inférence de GPT-J-6B est A100 8 fois celle de la version précédente et 2 fois celle de la version non optimisée d'août.
TensorRT fournit également une API Python modulaire open source qui peut rapidement personnaliser les solutions d'optimisation en fonction des différentes exigences LLM
Cette API intègre un compilateur d'apprentissage en profondeur, l'optimisation du noyau, des fonctions de pré/post-traitement et de communication multi-nœuds .
Il existe également des versions personnalisées pour les modèles courants tels que GPT(2/3) et Llama, qui peuvent être utilisées "prêtes à l'emploi".
Grâce au dernier noyau d'IA open source de TensorRT, les développeurs peuvent également optimiser le modèle lui-même, y compris l'algorithme d'attention FlashAttention, qui accélère considérablement Transformer.
TensorRT est un moteur d'inférence hautes performances pour optimiser l'inférence du deep learning. Il optimise la vitesse d'inférence LLM en utilisant des technologies telles que le calcul à précision mixte, l'optimisation de graphiques dynamiques et la fusion de couches. Plus précisément, TensorRT améliore la vitesse d'inférence en réduisant la quantité de calcul et les besoins en bande passante mémoire en convertissant les calculs à virgule flottante en calculs à virgule flottante demi-précision. De plus, TensorRT utilise également une technologie d'optimisation de graphiques dynamiques pour sélectionner dynamiquement la structure de réseau optimale en fonction des caractéristiques des données d'entrée, améliorant ainsi encore la vitesse d'inférence. De plus, TensorRT utilise également la technologie de fusion de couches pour fusionner plusieurs couches informatiques en une couche informatique plus efficace, réduisant ainsi les frais de calcul et d'accès à la mémoire et améliorant encore la vitesse d'inférence. En bref, TensorRT a considérablement amélioré la vitesse et l'efficacité de l'inférence LLM grâce à une variété de technologies d'optimisation
Tout d'abord, il bénéficie de TensorRToptimisant la méthode de travail collaboratif multi-nœuds.
Un modèle énorme comme Llama ne peut pas être exécuté sur une seule carte. Il nécessite plusieurs GPU pour fonctionner ensemble.
Dans le passé, ce travail nécessitait de démonter manuellement le modèle pour le réaliser.
Avec TensorRT, le système peut automatiquement diviser le modèle et l'exécuter efficacement sur plusieurs GPU via NVLink
Deuxièmement, TensorRT utilise également une planification optimisée appelée technologie Dynamic Batch Processing.
Pendant le processus d'inférence, LLM procède en exécutant plusieurs fois des itérations du modèle
La technologie de traitement par lots dynamique exécutera immédiatement la séquence terminée au lieu d'attendre que l'ensemble du lot de tâches soit terminé avant de traiter l'ensemble de requêtes suivant.
Dans des tests réels, la technologie de traitement par lots dynamique a réussi à réduire de moitié le débit des requêtes GPU de LLM, réduisant ainsi considérablement les coûts de fonctionnement
Un autre point clé est la conversion de nombres à virgule flottante de précision 16 bits en précision 8 bits , réduisant ainsi la consommation de mémoire.
Par rapport au FP16 en phase de formation, le FP8 consomme moins de ressources et est plus précis que l'INT-8. Il peut améliorer les performances sans affecter la précision du modèle.
En utilisant le moteur Hopper Transformer, le système terminera automatiquement le FP16. vers la compilation de conversion FP8 sans modifier manuellement aucun code dans le modèle
Actuellement, la version anticipée de TensorRT-LLM est disponible en téléchargement, et la version officielle sera lancée et intégrée au framework NeMo dans quelques semaines
Chaque fois qu'un grand événement survient, la figure de "Leewenhoek" est indispensable.
Dans l'annonce de Nvidia, il a mentionné la coopération avec des sociétés d'intelligence artificielle de premier plan telles que Meta, mais n'a pas mentionné OpenAI
À partir de cette annonce, certains internautes ont découvert ce point et l'ont publié sur le forum OpenAI :
S'il vous plaît, laissez-moi voir qui n'a pas été repéré par Lao Huang (tête de chien manuelle)
Quel genre de "surprise" pensez-vous que Lao Huang nous apportera ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!