


Éloges des internautes : Transformer dirige la version simplifiée du document annuel est ici
Optimiser à partir des racines des grands modèles. On peut dire que l'
Transformer architecture est la principale force derrière de nombreuses réussites récentes dans le domaine de l'apprentissage profond. Un moyen simple de créer une architecture Transformer approfondie consiste à empiler plusieurs « blocs » Transformer identiques les uns après les autres, mais chaque « bloc » est plus complexe et se compose de nombreux composants différents qui nécessitent un agencement et une combinaison spécifiques pour obtenir de bonnes performances.
Depuis la naissance de l'architecture Transformer en 2017, les chercheurs ont lancé un grand nombre d'études dérivées basées sur celle-ci, mais quasiment aucune modification n'a été apportée au "bloc" Transformer.
La question est donc la suivante : le bloc Transformer standard peut-il être simplifié ?
Dans un article récent, des chercheurs de l'ETH Zurich expliquent comment simplifier le bloc Transformer standard nécessaire au LLM sans affecter les propriétés de convergence et les performances des tâches en aval. Sur la base de la théorie de la propagation du signal et de preuves empiriques, ils ont découvert que certaines parties telles que les connexions résiduelles, les couches de normalisation (LayerNorm), les paramètres de projection et de valeur et les sous-blocs de sérialisation MLP (favorisant la disposition parallèle) peuvent être supprimés pour simplifier GPT- comme l'architecture du décodeur et le modèle BERT de style encodeur.
Les chercheurs ont étudié si les composants impliqués pouvaient être retirés sans affecter la vitesse d'entraînement et quelles modifications architecturales devraient être apportées au bloc Transformer.

Lien de l'article : https://arxiv.org/pdf/2311.01906.pdf
Lightning AI Le fondateur et chercheur en apprentissage automatique, Sebastian Raschka, appelle cette recherche son "article préféré de l'année" One :
Mais certains chercheurs se sont interrogés : "Il est difficile de commenter à moins d'avoir vu le processus de formation complet. S'il n'y a pas de couche de normalisation ni de connexion résiduelle, comment peut-il être supérieur à 1 "

Sebastian Raschka était d'accord : "Oui, l'architecture qu'ils ont expérimentée est relativement petite, Reste à savoir si cela peut être généralisé à un transformateur avec des milliards de paramètres. Mais il a quand même dit que le travail était impressionnant et le pensait." la suppression réussie des connexions résiduelles était tout à fait raisonnable (compte tenu de son schéma d'initialisation).
À cet égard, Yann LeCun, lauréat du prix Turing, a commenté : « Nous n'avons qu'effleuré la surface du domaine de l'architecture du deep learning. Il s'agit d'un espace de grande dimension, donc le volume est presque entièrement contenu dans la surface, mais nous n'avons fait qu'effleurer la surface Une petite partie de ‖
Pourquoi devons-nous simplifier le bloc Transformateur ?
Les chercheurs ont déclaré que simplifier le bloc Transformer sans affecter la vitesse d'entraînement est un problème de recherche intéressant.
Tout d'abord, les architectures de réseaux neuronaux modernes sont de conception complexe et contiennent de nombreux composants, et le rôle que jouent ces différents composants dans la dynamique de la formation des réseaux neuronaux et la manière dont ils interagissent les uns avec les autres n'est pas bien compris. Cette question concerne l’écart entre la théorie et la pratique du deep learning et est donc très importante.
La théorie de la propagation du signal s'est avérée influente dans la mesure où elle motive des choix de conception pratiques dans les architectures de réseaux neuronaux profonds. La propagation du signal étudie l'évolution des informations géométriques dans les réseaux de neurones lors de l'initialisation, capturées par le produit interne des représentations hiérarchiques à travers les entrées, et a conduit à de nombreux résultats impressionnants dans la formation de réseaux de neurones profonds.
Cependant, actuellement, cette théorie ne considère le modèle que lors de l'initialisation, et ne considère souvent que la passe avant initiale, elle ne peut donc pas révéler de nombreux problèmes complexes dans la dynamique d'entraînement des réseaux neuronaux profonds, tels que la contribution des connexions résiduelles à la vitesse d'entraînement. Bien que la propagation du signal soit essentielle à la motivation des modifications, les chercheurs ont déclaré qu'ils ne pouvaient pas dériver un module Transformer simplifié à partir de la seule théorie et qu'ils devaient s'appuyer sur des informations empiriques.
En termes d'applications pratiques, étant donné le coût élevé actuel de la formation et du déploiement de grands modèles Transformer, toute amélioration de l'efficacité des pipelines de formation et d'inférence de l'architecture Transformer représente d'énormes économies potentielles. Si le module Transformer peut être simplifié en supprimant les composants inutiles, cela peut à la fois réduire le nombre de paramètres et améliorer le débit du modèle.
Cet article mentionne également qu'après avoir supprimé la connexion résiduelle, les paramètres de valeur, les paramètres de projection et les sous-blocs de sérialisation, il peut correspondre au Transformer standard en termes de vitesse de formation et de performance des tâches en aval. Au final, les chercheurs ont réduit le nombre de paramètres de 16 % et ont observé une augmentation de 16 % du débit en termes de temps de formation et d'inférence.
Comment simplifier le bloc Transformateur ?
Sur la base de la théorie de la propagation du signal et d'observations empiriques, le chercheur a présenté comment générer le bloc transformateur le plus simple à partir du module pré-LN (comme indiqué ci-dessous).
Dans chaque section du chapitre 4 de l'article, l'auteur présente comment supprimer un composant de bloc à la fois sans affecter la vitesse d'entraînement.
Toutes les expériences de cette partie utilisent un modèle GPT de 18 blocs de 768 largeurs avec décodeur causal uniquement sur l'ensemble de données CodeParrot Cet ensemble de données est suffisamment grand pour que lorsque l'auteur est en mode époque d'entraînement unique, l'écart de généralisation est. très petit (voir Figure 2), ce qui leur permet de se concentrer sur la vitesse d'entraînement.
Supprimer les connexions résiduelles
Les chercheurs ont d'abord envisagé de supprimer les connexions résiduelles dans le sous-bloc attention. Dans la notation de l'équation (1), cela équivaut à fixer α_SA à 0. La simple suppression des connexions résiduelles d'attention peut entraîner une dégradation du signal, c'est-à-dire un effondrement des rangs, entraînant une mauvaise capacité d'entraînement. Dans la section 4.1 de l'article, les chercheurs expliquent leur méthode en détail.
Supprimer les paramètres de projection/valeur
De la figure 3, on peut conclure que la suppression complète des paramètres de valeur et de projection W^V, W^P est possible avec une perte minimale de vitesse d'entraînement par mise à jour. C'est-à-dire que lorsque β_V = β_P = 0 et identité initialisée
, après le même nombre d'étapes de formation, cette étude peut fondamentalement atteindre les performances du bloc Pré-LN. Dans ce cas, W^V = W^P = I a W^V = W^P = I tout au long du processus de formation, c'est-à-dire que les valeurs et les paramètres de projection sont cohérents. Les auteurs présentent des méthodes détaillées dans la section 4.2.

Suppression des connexions résiduelles du sous-bloc MLP
Par rapport aux modules ci-dessus, la suppression des connexions résiduelles du sous-bloc MLP est plus difficile. Comme dans des recherches précédentes, les auteurs ont constaté qu'en utilisant Adam, sans connexions résiduelles MLP, rendre les activations plus linéaires via la propagation du signal entraînait toujours une diminution significative de la vitesse d'entraînement par mise à jour, comme le montre la figure 22.
Ils ont également essayé diverses variantes de l'initialisation Looks Linear, notamment les poids gaussiens, les poids orthogonaux ou les poids d'identité, mais en vain. Par conséquent, ils utilisent des activations standards (par exemple ReLU) tout au long de leur travail et une initialisation dans des sous-blocs MLP.
Les auteurs se tournent vers le concept de sous-blocs parallèles MHA et MLP, qui s'est avéré populaire dans plusieurs modèles récents de grands transformateurs, tels que PALM et ViT-22B. Le bloc transformateur parallèle est illustré dans la figure ci-dessous.

L'auteur détaille l'opération spécifique de suppression des connexions résiduelles du sous-bloc MLP dans la section 4.3 de l'article.
Supprimer la couche de normalisation
La dernière chose à supprimer est la couche de normalisation, vous obtenez donc le bloc le plus simple dans le coin supérieur droit de la figure 1. Du point de vue de l'initialisation de la propagation du signal, les auteurs peuvent supprimer la couche de normalisation à n'importe quelle étape de la simplification dans cette section. Leur idée est que la normalisation dans le bloc Pre-LN réduit implicitement le poids des branches résiduelles, et cet effet bénéfique peut être répliqué sans la couche de normalisation via un autre mécanisme : soit lors de l'utilisation de connexions résiduelles, réduire explicitement le poids de la branche résiduelle , ou biaiser la matrice d'attention vers l'identité/convertir la non-linéarité MLP en « plus » de linéarité.
Étant donné que l'auteur a pris en compte ces mécanismes lors du processus de modification (comme la réduction du poids de MLP β_FF et Shaped Attention), une normalisation n'est pas nécessaire. Les auteurs présentent plus d'informations dans la section 4.4.
Résultats expérimentaux
Expansion en profondeur
Étant donné que la théorie de la propagation du signal se concentre généralement sur de grandes profondeurs, une dégradation du signal se produit généralement dans ce cas. Une question naturelle se pose donc : la vitesse d’entraînement améliorée obtenue grâce à notre bloc transformateur simplifié s’adapte-t-elle également à de plus grandes profondeurs ?
On peut observer sur la figure 6 qu'après avoir étendu la profondeur de 18 blocs à 72 blocs, les performances du modèle et du transformateur pré-LN dans cette étude sont améliorées, ce qui montre que le modèle simplifié dans cette étude n'est pas seulement plus rapide à l'entraînement Plus rapide et capable de tirer parti des capacités supplémentaires fournies par une plus grande profondeur. En fait, lorsque la normalisation est utilisée, les trajectoires par mise à jour du bloc simplifié et du pré-LN dans cette étude sont presque impossibles à distinguer à différentes profondeurs.

BERT
Ensuite, les auteurs montrent que leurs performances de bloc simplifiées s'appliquent à différents ensembles de données et architectures en plus des décodeurs autorégressifs, ainsi qu'aux tâches en aval. Ils ont choisi le paramètre populaire du modèle BERT à encodeur bidirectionnel uniquement pour la modélisation du langage masqué et ont utilisé le benchmark GLUE en aval.
Comme le montre la figure 7, dans les 24 heures suivant l'exécution, les blocs simplifiés de cette étude sont comparables à la vitesse de pré-entraînement de la tâche de modélisation de langage masqué par rapport à la ligne de base (Crammed) Pre-LN. En revanche, supprimer les connexions résiduelles sans modifier les valeurs et les projections entraîne là encore une diminution significative de la vitesse d'entraînement. Dans la figure 24, les auteurs fournissent un diagramme équivalent de l’étape microbatch.

De plus, dans le tableau 1, les chercheurs ont constaté que leur méthode, après avoir été affinée sur le benchmark GLUE, fonctionnait de manière comparable à celle du benchmark Crammed BERT.

Ils répartissent les tâches en aval dans le tableau 2. Pour une comparaison équitable, ils ont utilisé le même protocole de réglage fin que Geiping & Goldstein (2023) (5 époques, hyperparamètres constants pour chaque tâche, régularisation des abandons).

Efficacité améliorée
Dans le tableau 1, les chercheurs ont également détaillé le nombre de paramètres et la vitesse de formation des modèles utilisant différents blocs Transformer dans la tâche de modélisation de langage masqué. Ils ont calculé la vitesse comme le rapport entre le nombre d'étapes de microbatch effectuées pendant 24 heures de pré-entraînement et le BERT pré-LN Crammed de base. La conclusion est que le modèle utilise 16 % de paramètres en moins et que SAS-P et SAS sont respectivement 16 % et 9 % plus rapides par itération que le bloc Pre-LN.
On peut noter que dans l'implémentation ici, le bloc parallèle n'est que 5 % plus rapide que le bloc Pre-LN, tandis que la vitesse d'entraînement observée par Chowdhery et al. (2022) est 15 % plus rapide, ce qui montre qu'avec un mise en œuvre plus optimisée, il est possible que la vitesse globale d'entraînement puisse être encore augmentée. Comme Geiping & Goldstein (2023), cette implémentation utilise également la technologie de fusion d'opérateurs automatiques dans PyTorch (Sarofeen et al., 2022).
Entraînement plus long
Enfin, étant donné la tendance actuelle à entraîner des modèles plus petits sur plus de données pendant des périodes plus longues, les chercheurs ont discuté de la question de savoir si les blocs simplifiés pouvaient toujours réaliser l'entraînement des blocs pré-LN après une longue vitesse d'entraînement. Pour ce faire, ils utilisent le modèle de la figure 5 sur CodeParrot et s'entraînent avec 3x tokens. Pour être précis, la formation prend environ 120 000 étapes (au lieu de 40 000 étapes) avec une taille de lot de 128 et une longueur de séquence de 128, ce qui donne environ 2 milliards de jetons.
Comme le montre la figure 8, lorsque davantage de jetons sont utilisés pour la formation, la vitesse de formation des blocs de code SAS et SAS-P simplifiés est toujours comparable, voire meilleure, que celle des blocs de code PreLN.
Pour plus de détails sur la recherche, veuillez vous référer à l'article original.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Dans le processus de développement de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant à garantir que ces modèles sont à la fois puissant et sûr au service de la société humaine. Les premiers efforts se sont concentrés sur les méthodes d’apprentissage par renforcement par feedback humain (RL

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

Montrez la chaîne causale à LLM et il pourra apprendre les axiomes. L'IA aide déjà les mathématiciens et les scientifiques à mener des recherches. Par exemple, le célèbre mathématicien Terence Tao a partagé à plusieurs reprises son expérience de recherche et d'exploration à l'aide d'outils d'IA tels que GPT. Pour que l’IA soit compétitive dans ces domaines, des capacités de raisonnement causal solides et fiables sont essentielles. La recherche présentée dans cet article a révélé qu'un modèle Transformer formé sur la démonstration de l'axiome de transitivité causale sur de petits graphes peut se généraliser à l'axiome de transitivité sur de grands graphes. En d’autres termes, si le Transformateur apprend à effectuer un raisonnement causal simple, il peut être utilisé pour un raisonnement causal plus complexe. Le cadre de formation axiomatique proposé par l'équipe est un nouveau paradigme pour l'apprentissage du raisonnement causal basé sur des données passives, avec uniquement des démonstrations.

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com. Introduction Ces dernières années, l'application de grands modèles de langage multimodaux (MLLM) dans divers domaines a connu un succès remarquable. Cependant, en tant que modèle de base pour de nombreuses tâches en aval, le MLLM actuel se compose du célèbre réseau Transformer, qui
