Générateur 4090 : par rapport à la plate-forme A100, la vitesse de génération des jetons n'est que inférieure à 18 % et la soumission au moteur d'inférence a remporté de vives discussions-IA-php.cn

Maison

Générateur 4090 : par rapport à la plate-forme A100, la vitesse de génération des jetons n'est que inférieure à 18 % et la soumission au moteur d'inférence a remporté de vives discussions

王林

Dec 21, 2023 pm 03:25 PM

工程 powerinfer

PowerInfer améliore l'efficacité de l'exécution de l'IA sur du matériel grand public

L'équipe de l'Université Jiao Tong de Shanghai a récemment lancé PowerInfer, un moteur d'inférence haute vitesse CPU/GPU LLM super puissant.

Générateur 4090 : par rapport à la plate-forme A100, la vitesse de génération des jetons nest que inférieure à 18 % et la soumission au moteur dinférence a remporté de vives discussions

^{PowerInfer et lama .cpp fonctionnent tous deux sur le même matériel et profitent pleinement de la VRAM du RTX 4090.}

Quelle est la vitesse de ce moteur d'inférence ? En exécutant LLM sur un seul GPU NVIDIA RTX 4090, le taux moyen de génération de jetons de PowerInfer est de 13,20 jetons/s, avec un pic de 29,08 jetons/s, ce qui est seulement 18 % inférieur à celui du GPU A100 du serveur principal et peut être appliqué à divers LLM.

PowerInfer Par rapport au cadre d'inférence LLM avancé local llama.cpp, l'exécution du modèle Falcon (ReLU)-40B-FP16 sur un seul RTX 4090 (24G) permet non seulement d'obtenir une accélération de plus de 11 fois, mais maintient également la précision du modèle

PowerInfer est un moteur d'inférence à grande vitesse conçu pour le déploiement sur site de LLM. Contrairement aux systèmes multi-experts (MoE), PowerInfer a intelligemment conçu un moteur d'inférence hybride GPU-CPU qui exploite pleinement la haute localité de l'inférence LLM

précharge les neurones fréquemment activés (c'est-à-dire activation à chaud) sur le GPU Pour un accès rapide, les neurones qui s'activent rarement (c'est-à-dire les activations à froid) sont calculées sur le processeur. Voici comment cela fonctionne

Cette méthode peut réduire considérablement les besoins en mémoire du GPU et la quantité de transfert de données entre le CPU et le GPU

Générateur 4090 : par rapport à la plate-forme A100, la vitesse de génération des jetons nest que inférieure à 18 % et la soumission au moteur dinférence a remporté de vives discussions

Lien du projet : https://github.com/SJTU-IPADS/ PowerInfer
Lien papier : https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20231219.pdf

PowerInfer peut exécuter LLM à grande vitesse sur un PC équipé d'un seul GPU grand public. Les utilisateurs peuvent désormais utiliser PowerInfer avec Llama 2 et Faclon 40B, avec la prise en charge de Mistral-7B bientôt disponible.

En un jour, PowerInfer a obtenu avec succès 2K étoiles

Générateur 4090 : par rapport à la plate-forme A100, la vitesse de génération des jetons nest que inférieure à 18 % et la soumission au moteur dinférence a remporté de vives discussions

Après avoir vu cette recherche, les internautes ont exprimé leur enthousiasme : désormais une seule carte 4090 peut exécuter de grands modèles de 175B, et non plus seulement Quel rêve

Générateur 4090 : par rapport à la plate-forme A100, la vitesse de génération des jetons nest que inférieure à 18 % et la soumission au moteur dinférence a remporté de vives discussions

Architecture PowerInfer

La clé de la conception de PowerInfer est d'exploiter le degré élevé de localité inhérent à l'inférence LLM, qui se caractérise par des distributions de lois de puissance dans les activations neuronales. Cette distribution suggère qu'un petit sous-ensemble de neurones, appelés neurones chauds, s'activent de manière cohérente selon les entrées, alors que la majorité des neurones froids varient en fonction des entrées spécifiques. PowerInfer exploite ce mécanisme pour concevoir un moteur d'inférence hybride GPU-CPU.

Générateur 4090 : par rapport à la plate-forme A100, la vitesse de génération des jetons nest que inférieure à 18 % et la soumission au moteur dinférence a remporté de vives discussions

Veuillez consulter la figure 7 ci-dessous, qui montre un aperçu de l'architecture de PowerInfer, y compris les composants hors ligne et en ligne. Le composant hors ligne est responsable de la gestion de la rareté d’activation du LLM tout en faisant la distinction entre les neurones chauds et froids. Pendant la phase en ligne, le moteur d'inférence charge les deux types de neurones dans le GPU et le CPU et répond aux requêtes LLM avec une faible latence au moment de l'exécution.

Générateur 4090 : par rapport à la plate-forme A100, la vitesse de génération des jetons nest que inférieure à 18 % et la soumission au moteur dinférence a remporté de vives discussions

La figure 8 montre le fonctionnement de PowerInfer. Elle coordonne les couches entre le GPU et le CPU. traitement des neurones. PowerInfer classe les neurones via des données hors ligne, attribuant les neurones actifs (tels que les index 3, 5, 7) à la mémoire GPU et d'autres neurones à la mémoire CPU

Une fois l'entrée reçue, le prédicteur identifiera les neurones de la couche actuelle susceptibles d'être activés. Il convient de noter que les neurones activés thermiquement identifiés grâce à une analyse statistique hors ligne peuvent ne pas être cohérents avec le comportement d'activation réel au moment de l'exécution. Par exemple, bien que le neurone 7 soit étiqueté comme activé thermiquement, ce n’est pas le cas en réalité. Le CPU et le GPU traitent ensuite les neurones déjà activés et ignorent ceux qui ne le sont pas. Le GPU est responsable du calcul des neurones 3 et 5, tandis que le CPU gère le neurone 4. Une fois le calcul du neurone 4 terminé, sa sortie sera envoyée au GPU pour l'intégration des résultats

Générateur 4090 : par rapport à la plate-forme A100, la vitesse de génération des jetons nest que inférieure à 18 % et la soumission au moteur dinférence a remporté de vives discussions

Afin de réécrire le contenu sans changer le sens original, la langue doit être réécrite en chinois. Il n'est pas nécessaire que la phrase originale apparaisse

L'étude a été menée en utilisant le Modèle OPT avec différents paramètres Afin de réécrire le contenu sans changer le sens original, la langue doit être réécrite en chinois. Il n'est pas nécessaire de présenter des phrases originales, les paramètres vont de 6,7B à 175B, et les modèles Falcon (ReLU)-40B et LLaMA (ReGLU)-70B sont également inclus. Il convient de noter que la taille du modèle paramétrique 175B est comparable à celle du Modèle GPT-3.

Cet article compare également PowerInfer avec llama.cpp, un framework d'inférence LLM natif de pointe. Pour faciliter la comparaison, cette étude a également étendu llama.cpp pour prendre en charge le modèle OPT

Étant donné que cet article se concentre sur les paramètres à faible latence, la métrique d'évaluation adopte la vitesse de génération de bout en bout en termes de nombre de jetons générés par seconde (jetons/s) pour la quantification

Cette étude compare d'abord les performances d'inférence de bout en bout de PowerInfer et de lama.cpp avec une taille de lot de 1

Sur PC-High avec NVIDIA RTX 4090, Figure 10 montre les différents modèles et la vitesse de génération des configurations d’entrée et de sortie. En moyenne, PowerInfer atteint une vitesse de génération de 8,32 jetons/s, avec un maximum de 16,06 jetons/s, ce qui est nettement meilleur que llama.cpp, 7,23 fois supérieur à lama.cpp et 11,69 fois supérieur à Falcon-40B

À mesure que le nombre de jetons de sortie augmente, l'avantage en termes de performances de PowerInfer devient plus évident, car la phase de génération joue un rôle plus important dans le temps d'inférence global. A ce stade, un petit nombre de neurones sont activés à la fois sur le CPU et le GPU, ce qui réduit les calculs inutiles par rapport à llama.cpp. Par exemple, dans le cas de l'OPT-30B, seulement environ 20 % des neurones sont activés par jeton généré, dont la plupart sont traités sur le GPU, ce qui constitue l'avantage de l'inférence basée sur les neurones PowerInfer

Générateur 4090 : par rapport à la plate-forme A100, la vitesse de génération des jetons nest que inférieure à 18 % et la soumission au moteur dinférence a remporté de vives discussions

dans la figure 11 Comme le montre la figure, PowerInfer a quand même obtenu des améliorations de performances considérables malgré son fonctionnement sur PC-Low, avec une accélération moyenne de 5,01x et une accélération maximale de 7,06x. Cependant, ces améliorations sont moindres par rapport à PC-High, principalement en raison de la limite de mémoire GPU de 11 Go de PC-Low. Cette limitation affecte le nombre de neurones pouvant être alloués au GPU, en particulier pour les modèles avec environ 30 B de paramètres ou plus, ce qui entraîne une plus grande dépendance à l'égard du processeur pour gérer un grand nombre de neurones activés

Générateur 4090 : par rapport à la plate-forme A100, la vitesse de génération des jetons nest que inférieure à 18 % et la soumission au moteur dinférence a remporté de vives discussions

La figure 12 montre PowerInfer et Neuron. répartition de la charge entre CPU et GPU entre lama.cpp. Notamment, sur PC-High, PowerInfer augmente considérablement la part de charge neuronale du GPU, d'une moyenne de 20 % à 70 %. Cela montre que le GPU traite 70 % des neurones activés. Cependant, dans les cas où les besoins en mémoire du modèle dépassent de loin la capacité du GPU, comme par exemple l'exécution d'un modèle de 60 Go sur un GPU 2080Ti de 11 Go, la charge neuronale sur le GPU est réduite à 42 %. Cette diminution est due à la mémoire limitée du GPU, qui n'est pas suffisante pour accueillir tous les neurones activés, obligeant ainsi le CPU à en calculer un sous-ensemble

Générateur 4090 : par rapport à la plate-forme A100, la vitesse de génération des jetons nest que inférieure à 18 % et la soumission au moteur dinférence a remporté de vives discussions

La figure 13 montre que PowerInfer prend efficacement en charge LLM en utilisant la compression de quantification INT4. Sur PC-High, la vitesse de réponse moyenne de PowerInfer est de 13,20 jetons/s, avec une vitesse de réponse maximale de 29,08 jetons/s. Par rapport à llama.cpp, l’accélération moyenne est de 2,89x et l’accélération maximale est de 4,28x. Sur PC-Low, l'accélération moyenne est de 5,01x et le pic est de 8,00x. Les besoins de mémoire réduits dus à la quantification permettent à PowerInfer de gérer plus efficacement des modèles plus grands. Par exemple, l'utilisation du modèle OPT-175B sur PC-High nécessitait de réécrire la langue en chinois afin de réécrire le contenu sans changer le sens original. Sans qu'il soit nécessaire d'apparaître dans la phrase originale, PowerInfer atteint près de deux jetons par seconde, dépassant lama.cpp d'un facteur 2,66.

Générateur 4090 : par rapport à la plate-forme A100, la vitesse de génération des jetons nest que inférieure à 18 % et la soumission au moteur dinférence a remporté de vives discussions

Enfin, l'étude évalue également les performances d'inférence de bout en bout de PowerInfer sous différentes tailles de lots. Comme le montre la figure 14, lorsque la taille du lot est inférieure à 32, PowerInfer présente des avantages significatifs, avec une amélioration moyenne des performances de 6,08 fois par rapport à Llama. À mesure que la taille du lot augmente, l'accélération fournie par PowerInfer diminue. Cependant, même lorsque la taille du lot est définie sur 32, PowerInfer maintient toujours une accélération considérable

Générateur 4090 : par rapport à la plate-forme A100, la vitesse de génération des jetons nest que inférieure à 18 % et la soumission au moteur dinférence a remporté de vives discussions

^{Lien de référence : https://weibo.com/1727858283/NxZ0Ttdnz}

Veuillez consulter le document original pour en savoir plus. plus de contenu

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Will R.E.P.O. Vous avez un jeu croisé?

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7548

Tutoriel CakePHP

1382

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours Jul 17, 2024 am 01:56 AM

Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. Jul 17, 2024 pm 10:02 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Jul 19, 2024 am 01:29 AM

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Jun 24, 2024 pm 03:04 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Dans le processus de développement de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant à garantir que ces modèles sont à la fois puissant et sûr au service de la société humaine. Les premiers efforts se sont concentrés sur les méthodes d’apprentissage par renforcement par feedback humain (RL

Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Aug 01, 2024 pm 05:18 PM

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Aug 05, 2024 pm 03:32 PM

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

La formation Axiom permet au LLM d'apprendre le raisonnement causal : le modèle à 67 millions de paramètres est comparable au niveau de mille milliards de paramètres GPT-4. Jul 17, 2024 am 10:14 AM

Montrez la chaîne causale à LLM et il pourra apprendre les axiomes. L'IA aide déjà les mathématiciens et les scientifiques à mener des recherches. Par exemple, le célèbre mathématicien Terence Tao a partagé à plusieurs reprises son expérience de recherche et d'exploration à l'aide d'outils d'IA tels que GPT. Pour que l’IA soit compétitive dans ces domaines, des capacités de raisonnement causal solides et fiables sont essentielles. La recherche présentée dans cet article a révélé qu'un modèle Transformer formé sur la démonstration de l'axiome de transitivité causale sur de petits graphes peut se généraliser à l'axiome de transitivité sur de grands graphes. En d’autres termes, si le Transformateur apprend à effectuer un raisonnement causal simple, il peut être utilisé pour un raisonnement causal plus complexe. Le cadre de formation axiomatique proposé par l'équipe est un nouveau paradigme pour l'apprentissage du raisonnement causal basé sur des données passives, avec uniquement des démonstrations.

Le premier MLLM basé sur Mamba est là ! Les poids des modèles, le code de formation, etc. sont tous open source Jul 17, 2024 am 02:46 AM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com. Introduction Ces dernières années, l'application de grands modèles de langage multimodaux (MLLM) dans divers domaines a connu un succès remarquable. Cependant, en tant que modèle de base pour de nombreuses tâches en aval, le MLLM actuel se compose du célèbre réseau Transformer, qui

See all articles