La formation de modèles d'apprentissage profond toujours plus vastes est devenue une tendance émergente au cours de la dernière décennie. Comme le montre la figure ci-dessous, l'augmentation continue du nombre de paramètres du modèle améliore de plus en plus les performances des réseaux de neurones et génère également de nouvelles orientations de recherche, mais le modèle pose également de plus en plus de problèmes.
Tout d'abord, ce type de modèle a souvent un accès limité et n'est pas open source, ou même s'il est open source, il nécessite quand même beaucoup de ressources informatiques pour fonctionner. Deuxièmement, les paramètres de ces modèles de réseau ne sont pas universels, ce qui nécessite une grande quantité de ressources pour la formation et la dérivation. Troisièmement, le modèle ne peut pas être étendu indéfiniment car la taille des paramètres est limitée par le matériel. Pour résoudre ces problèmes, une nouvelle tendance de recherche axée sur l’amélioration de l’efficacité est en train d’émerger.
Récemment, plus d'une douzaine de chercheurs de l'Université hébraïque, de l'Université de Washington et d'autres institutions ont rédigé conjointement une revue résumant les méthodes efficaces dans le domaine du traitement du langage naturel (NLP).
Adresse papier : https://arxiv.org/pdf/2209.00099.pdf
L'efficacité fait généralement référence à la relation entre les ressources entrées dans le système et la sortie du système. Un système efficace peut gaspiller moins de ressources. pour produire une production. Dans le domaine de la PNL, nous pensons l’efficacité comme la relation entre le coût d’un modèle et les résultats qu’il produit.
L'équation (1) décrit le coût de formation (Cost) d'un modèle d'intelligence artificielle pour produire un certain résultat (R) est proportionnel à trois facteurs (incomplets) :
(1) dans un seul échantillon Le coût d'exécution du modèle sur le modèle (E) ;
(2) La taille de l'ensemble de données d'entraînement (D)
(3) Le nombre d'exécutions d'entraînement requises pour la sélection du modèle ou le réglage des paramètres (H) ; .
Le coût Coût(·) peut ensuite être mesuré selon plusieurs dimensions, telles que les coûts informatiques, temporels ou environnementaux, dont chacune peut être quantifiée davantage de diverses manières. Par exemple, le coût de calcul peut inclure le nombre total d'opérations en virgule flottante (FLOP) ou le nombre de paramètres du modèle. Parce que l’utilisation d’une seule mesure de coût peut être trompeuse, cette étude rassemble et organise le travail sur plusieurs aspects d’une PNL efficace et discute quels aspects sont bénéfiques pour quels cas d’utilisation.
Cette étude vise à donner une introduction de base à un large éventail de méthodes pour améliorer l'efficacité de la PNL. Cette étude organise donc cette enquête selon un pipeline de modèle PNL typique (Figure 2 ci-dessous), en introduisant les méthodes existantes pour rendre chaque étape plus efficace. .
Cet ouvrage fournit un guide pratique d'efficacité pour les chercheurs en PNL, principalement pour deux types de lecteurs :
(1) Les chercheurs de divers domaines de la PNL pour les aider à travailler dans des environnements à ressources limitées : En fonction des goulots d'étranglement des ressources , les lecteurs peuvent accéder directement à un aspect couvert par le pipeline PNL. Par exemple, si la principale limitation est le temps d'inférence, le chapitre 6 du document décrit les améliorations d'efficacité associées.
(2) Chercheurs intéressés par l'amélioration de l'état actuel de l'efficacité des méthodes PNL. Cet article peut servir de point d’entrée pour identifier les opportunités de nouvelles orientations de recherche.
La figure 3 ci-dessous présente la méthode PNL efficace résumée dans cette étude.
De plus, bien que le choix du matériel ait un impact important sur l'efficacité du modèle, la plupart des chercheurs en PNL ne contrôlent pas directement les décisions concernant le matériel, et la plupart des optimisations matérielles ne sont pas applicables à toutes les étapes du pipeline PNL. . Ça marche. Par conséquent, cette étude concentre les travaux sur les algorithmes mais fournit une brève introduction à l’optimisation matérielle au chapitre 7. Enfin, le document examine plus en détail comment quantifier l'efficacité, quels facteurs doivent être pris en compte lors du processus d'évaluation et comment décider du modèle le plus approprié.
Les lecteurs intéressés peuvent lire le texte original de l'article pour en savoir plus sur les détails de la recherche.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!