


Cette méthode de formation clairsemée pour les grands modèles avec une grande précision et une faible consommation de ressources a été trouvée.
Récemment, l'article d'Alibaba Cloud Machine Learning PAI « Parameter-Efficient Sparsity for Large Language Models Fine-Tuning » sur la formation éparse de grands modèles a été accepté par l'IJCAI 2022, la plus grande conférence sur l'intelligence artificielle.
L'article propose un algorithme d'entraînement clairsemé efficace en termes de paramètres PST En analysant l'indice d'importance des poids, il est conclu qu'il présente deux caractéristiques : un rang et une structure faibles. Sur la base de cette conclusion, l'algorithme PST introduit deux ensembles de petites matrices pour calculer l'importance des poids. Par rapport au besoin initial d'une matrice aussi grande que le poids pour enregistrer et mettre à jour l'indice d'importance, la quantité de paramètres qui doivent être. mis à jour pour une formation clairsemée est considérablement réduit. Comparé aux algorithmes d'entraînement clairsemés couramment utilisés, l'algorithme PST peut atteindre une précision de modèle clairsemée similaire tout en ne mettant à jour que 1,5 % des paramètres.
Contexte
Ces dernières années, les grandes entreprises et les instituts de recherche ont proposé une variété de grands modèles. Les paramètres de ces grands modèles vont de dizaines de milliards à des milliards, et même des dizaines de milliards sont déjà apparus. modèle. Ces modèles nécessitent une grande quantité de ressources matérielles pour être formés et déployés, ce qui les rend difficiles à mettre en œuvre. Par conséquent, comment réduire les ressources nécessaires à la formation et au déploiement de grands modèles est devenu un problème urgent.
La technologie de compression de modèle peut réduire efficacement les ressources requises pour le déploiement du modèle. En supprimant certains poids, les calculs du modèle peuvent être convertis de calculs denses en calculs clairsemés, réduisant ainsi l'utilisation de la mémoire et accélérant les calculs. Dans le même temps, par rapport à d'autres méthodes de compression de modèle (élagage/quantification structuré), la parcimonie peut atteindre un taux de compression plus élevé tout en garantissant la précision du modèle, et est plus adaptée aux grands modèles avec un grand nombre de paramètres.
Challenge
Les méthodes d'entraînement clairsemées existantes peuvent être divisées en deux catégories, l'une est l'algorithme clairsemé sans données basé sur le poids ; l'autre est l'algorithme clairsemé basé sur les données. L'algorithme clairsemé basé sur le poids est illustré dans la figure ci-dessous, comme l'élagage de magnitude [1], qui évalue l'importance du poids en calculant la norme L1 du poids, et génère le résultat clairsemé correspondant sur cette base. L'algorithme clairsemé basé sur le poids est efficace dans le calcul et ne nécessite pas la participation de données d'entraînement, mais l'indice d'importance calculé n'est pas suffisamment précis, affectant ainsi la précision du modèle clairsemé final.
L'algorithme clairsemé basé sur des données est présenté dans la figure ci-dessous, comme l'élagage de mouvement[2], qui calcule le produit du poids et le gradient correspondant comme indicateur pour mesurer l'importance du poids. Ce type de méthode prend en compte le rôle des poids sur des ensembles de données spécifiques et peut donc évaluer plus précisément l'importance des poids. Cependant, en raison de la nécessité de calculer et de sauvegarder l'importance de chaque poids, ce type de méthode nécessite souvent un espace supplémentaire pour stocker l'indice d'importance (S sur la figure). Dans le même temps, par rapport aux méthodes clairsemées basées sur la pondération, le processus de calcul est souvent plus complexe. Ces défauts deviennent plus évidents à mesure que la taille du modèle augmente.
Pour résumer, les algorithmes clairsemés précédents sont soit efficaces mais pas assez précis (algorithme basé sur le poids), soit précis mais pas assez efficaces (algorithme basé sur les données). Par conséquent, nous espérons proposer un algorithme clairsemé efficace capable d’effectuer avec précision et efficacité une formation clairsemée sur de grands modèles.
Break
Le problème avec les algorithmes clairsemés basés sur des données est qu'ils introduisent généralement des paramètres supplémentaires de la même taille que les poids pour connaître l'importance des poids, ce qui nous fait commencer à réfléchir à la manière de réduire les paramètres supplémentaires introduits. pour calculer l'importance des poids sexe. Tout d'abord, afin de maximiser l'utilisation des informations existantes pour calculer l'importance des poids, nous concevons l'indice d'importance des poids comme la formule suivante :
C'est-à-dire que nous combinons les données sans données et sans données. indicateurs pilotés pour déterminer conjointement l’importance des pondérations finales du modèle. On sait que l'indice d'importance sans données précédent ne nécessite pas de paramètres supplémentaires à enregistrer et est efficace dans le calcul, nous devons donc résoudre comment compresser les paramètres de formation supplémentaires introduits par l'indice d'importance basé sur les données ultérieur.
Basé sur l'algorithme clairsemé précédent, l'indice d'importance basé sur les données peut être conçu comme
, on commence donc à analyser la redondance de l'indicateur d'importance calculé par cette formule. Tout d’abord, sur la base de travaux antérieurs, il est connu que les poids et les gradients correspondants ont des propriétés évidentes de bas rang [3, 4], nous pouvons donc en déduire que l’indice d’importance a également des propriétés de bas rang, nous pouvons donc introduire deux propriétés de bas rang Une petite matrice pour représenter la matrice d'indicateurs d'importance d'origine qui est aussi grande que les pondérations.
Deuxièmement, nous avons analysé les résultats après la rareté du modèle et avons constaté qu'ils présentaient des caractéristiques structurelles évidentes. Comme le montre la figure ci-dessus, le côté droit de chaque image est le résultat de visualisation du poids clairsemé final, et le côté gauche est un histogramme qui compte le taux de parcimonie correspondant de chaque ligne/colonne. On peut voir que la plupart des poids dans 30 % des lignes de l’image de gauche ont été supprimés, et inversement, la plupart des poids dans 30 % des colonnes de l’image de droite ont été supprimés. Sur la base de ce phénomène, nous introduisons deux petites matrices structurées pour évaluer l'importance de chaque ligne/colonne de poids.
Sur la base de l'analyse ci-dessus, nous avons constaté que l'indice d'importance basé sur les données a un rang et une structure faibles, nous pouvons donc le convertir dans la représentation suivante :
où A et B représentent un rang faible, R et C représentent les propriétés structurelles. Grâce à une telle analyse, la matrice de l'indice d'importance, qui était à l'origine aussi grande que le poids, a été décomposée en quatre petites matrices, réduisant ainsi considérablement les paramètres d'entraînement impliqués dans un entraînement clairsemé. Dans le même temps, afin de réduire davantage les paramètres d'entraînement, nous avons décomposé la mise à jour du poids en deux petites matrices U et V basées sur la méthode précédente, de sorte que la formule finale de l'indice d'importance devient la forme suivante :
Correspondant algorithme Le diagramme du cadre est le suivant :
Les résultats expérimentaux finaux de l'algorithme PST sont les suivants. Nous le comparons avec l'élagage de magnitude et l'élagage de mouvement sur les tâches NLU (BERT, RoBERTa) et NLG (GPT-2). À 90 % sous le taux de parcimonie, PST peut atteindre une précision de modèle comparable à l'algorithme précédent sur la plupart des ensembles de données, mais ne nécessite que 1,5 % des paramètres d'entraînement.
La technologie PST a été intégrée à la bibliothèque de compression de modèles d'Alibaba Cloud Machine Learning PAI et à la fonction de formation clairsemée de grands modèles de la plateforme Alicemind. Il a permis d'accélérer les performances de l'utilisation de grands modèles au sein du groupe Alibaba. Sur les dizaines de milliards de PLUG de grands modèles, PST peut accélérer 2,5 fois sans réduire la précision du modèle et réduire l'utilisation de la mémoire de 10 fois par rapport à la formation éparse d'origine. À l'heure actuelle, Alibaba Cloud Machine Learning PAI est largement utilisé dans diverses industries, fournissant des services de développement d'IA à liaison complète, réalisant des solutions d'IA indépendantes et contrôlables pour les entreprises et améliorant considérablement l'efficacité de l'ingénierie d'apprentissage automatique.
Nom de l'article : Sparsity efficace des paramètres pour le réglage fin des grands modèles linguistiques
Auteurs de l'article : Yuchao Li , Fuli Luo , Chuanqi Tan , Mengdi Wang , Songfang Huang , Shen Li , Junjie Bai
Paper Lien PDF :https://arxiv.org/pdf/2205.11005.pdf
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds



Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Aujourd'hui, j'aimerais partager un travail de recherche récent de l'Université du Connecticut qui propose une méthode pour aligner les données de séries chronologiques avec de grands modèles de traitement du langage naturel (NLP) sur l'espace latent afin d'améliorer les performances de prévision des séries chronologiques. La clé de cette méthode consiste à utiliser des indices spatiaux latents (invites) pour améliorer la précision des prévisions de séries chronologiques. Titre de l'article : S2IP-LLM : SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting Adresse de téléchargement : https://arxiv.org/pdf/2403.05798v1.pdf 1. Modèle de fond de problème important

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.
