Avec la large application des modèles d'apprentissage profond dans des domaines tels que le traitement du langage naturel, la vitesse et les performances d'inférence des modèles sont devenues des problèmes importants. Récemment, le résultat de la recherche dirigée par Kuaishou « SAMP : Post-training Quantitative Model Inference Library Based on Adaptive Mixed Precision » a été sélectionné avec succès dans la conférence phare EMNLP 2023 et présenté et partagé à Singapour
Cette étude propose un outil d'accélération d'inférence appelé SAMP, qui améliore considérablement la vitesse d'inférence tout en maintenant les performances du modèle grâce à une technologie adaptative de précision mixte. Il contient un codeur adaptatif à précision mixte et une série de stratégies de fusion avancées. L'encodeur adaptatif à précision mixte peut trouver la meilleure combinaison de précision mixte à virgule flottante et à virgule fixe dans un grand nombre d'opérations de multiplication matricielle générale (GEMM) et de couches de transformateur, de sorte que les performances d'inférence de modèle soient les plus proches des besoins de l'utilisateur (calcul précision ou efficacité d’inférence). En fin de compte, les calculs à précision mixte permettent d'obtenir une meilleure précision de calcul que les calculs complets à virgule fixe. La stratégie de fusion intègre et améliore les opérateurs d'intégration et les opérations de calcul liées à la quantification, réduisant ainsi de moitié les appels au noyau CUDA. Dans le même temps, SAMP est une boîte à outils de bout en bout implémentée dans le langage de programmation C++. Elle offre une excellente vitesse d'inférence et abaisse également le seuil d'application industrielle de l'inférence quantitative post-formation.
Ce qui doit être réécrit est : le point d'innovation de SAMP par rapport à des systèmes similaires, comme le montre le tableau 1
SAMP présente les principaux points forts suivants :
1. Adaptatif. SAMP équilibre la précision des calculs et les performances de latence dans une approche d'inférence quantifiée post-formation. Les utilisateurs peuvent choisir des configurations de précision mixte avec une précision et une latence d'inférence appropriées pour différentes tâches. SAMP peut également recommander aux utilisateurs le meilleur mode de combinaison de quantification grâce à des méthodes d’allocation adaptative.
2. Efficacité du raisonnement. SAMP affiche une meilleure accélération d'inférence que les autres boîtes à outils d'inférence sur une large plage de précision (virgule flottante à virgule fixe). Dans l’ensemble de données de tâches de classification CLUE (Chinese Language Understanding Evaluation Benchmark), SAMP a atteint une accélération allant jusqu’à 1,05 à 1,15 fois par rapport à FasterTransformer.
3. Flexibilité. SAMP couvre de nombreuses tâches en aval telles que la classification, le marquage de séquences, la correspondance de texte, etc. Les modules cibles sont extensibles et peuvent être personnalisés de manière flexible. Il est convivial et moins dépendant de la plate-forme. SAMP prend en charge les API C++ et Python et nécessite uniquement CUDA 11.0 ou version ultérieure. En outre, SAMP fournit également de nombreux outils de conversion de modèles pour prendre en charge la conversion mutuelle entre des modèles de différents formats.
Photo 1 : Ce document de recherche sera présenté et partagé lors de la conférence EMNLP2023
Le chercheur principal Tian Rong de Kuaishou a déclaré que le résultat des efforts conjoints de toute l'équipe est d'obtenir de bons résultats dans des scénarios tels que l'inférence de modèle. SAMP a apporté des contributions sous trois aspects : premièrement, il résout le problème de la perte importante de précision dans les outils de raisonnement post-quantification (PTQ) existants dans les applications industrielles ; deuxièmement, il favorise l'utilisation de la technologie post-quantification (PTQ) dans plusieurs tâches en aval ; de la PNL. En même temps, la bibliothèque d'inférence est également légère, flexible, conviviale et prend en charge les objectifs de tâches définis par l'utilisateur
.Il est rapporté que l'EMNLP (Empirical Methods in Natural Language Processing) est l'une des principales conférences internationales dans le domaine du traitement du langage naturel et de l'intelligence artificielle. Elle se concentre sur la recherche universitaire sur la technologie de traitement du langage naturel dans divers scénarios d'application, avec un accent particulier. sur la recherche empirique sur le traitement du langage naturel. La conférence a promu des innovations fondamentales dans le domaine du traitement du langage naturel, telles que les modèles linguistiques de pré-formation, l'exploration de texte, les systèmes de dialogue et la traduction automatique. Elle a une énorme influence dans les cercles universitaires et industriels. Cette sélection signifie également les progrès de Kuaishou. dans ce domaine Les résultats de la recherche ont été reconnus par des chercheurs internationaux.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!