Les Transformers ont transformé l'intelligence artificielle, offrant des performances inégalées en matière de PNL, de vision par ordinateur et d'intégration de données multimodales. Ces modèles excellent dans l’identification de modèles au sein des données grâce à leurs mécanismes d’attention, ce qui les rend idéaux pour les tâches complexes. Cependant, la mise à l'échelle rapide des modèles de transformateurs doit être améliorée en raison du coût de calcul élevé associé à leur structure traditionnelle.
Les Transformers ont révolutionné l'intelligence artificielle, offrant des performances inégalées en matière de traitement du langage naturel (NLP), de vision par ordinateur et d'intégration de données multimodales. Ces modèles excellent dans l’identification de modèles au sein des données grâce à leurs mécanismes d’attention, ce qui les rend idéaux pour les tâches complexes. Cependant, la mise à l’échelle rapide des modèles de transformateurs doit être améliorée en raison du coût de calcul élevé associé à leur structure traditionnelle. À mesure que ces modèles se développent, ils nécessitent des ressources matérielles et un temps de formation importants, qui augmentent de façon exponentielle avec la taille du modèle.
Le principal obstacle à la mise à l'échelle des transformateurs réside dans les paramètres fixes dans leurs couches de projection linéaire. Cette structure statique limite la capacité du modèle à se développer sans être entièrement recyclé, ce qui devient exponentiellement plus coûteux à mesure que la taille des modèles augmente. Ces modèles traditionnels exigent généralement un recyclage complet lorsque des modifications architecturales se produisent, telles que l'augmentation des dimensions des canaux.
Par conséquent, le coût de calcul de ces extensions devient peu pratique et l'approche manque de flexibilité. L'incapacité d'ajouter de nouveaux paramètres de manière dynamique étouffe la croissance, rendant ces modèles moins adaptables à l'évolution des applications d'IA et plus coûteux en termes de temps et de ressources.
Historiquement, les approches de gestion de l'évolutivité des modèles incluaient la duplication des pondérations ou la restructuration des modèles à l'aide de méthodes telles que Net2Net, où la duplication des neurones étend les couches. Cependant, ces approches perturbent souvent l'équilibre des modèles pré-entraînés, ce qui entraîne des taux de convergence plus lents et des complexités de formation supplémentaires.
Bien que ces méthodes aient fait des progrès progressifs, elles sont toujours confrontées à des limites dans la préservation de l'intégrité du modèle pendant la mise à l'échelle. Les transformateurs s'appuient fortement sur des projections linéaires statiques, ce qui rend l'expansion des paramètres coûteuse et peu flexible. Les modèles traditionnels comme le GPT et d'autres gros transformateurs sont souvent recyclés à partir de zéro, ce qui entraîne des coûts de calcul élevés à chaque nouvelle étape de mise à l'échelle.
Maintenant, des chercheurs de l'Institut Max Planck, de Google et de l'Université de Pékin ont développé une nouvelle architecture appelée Tokenformer qui réinvente fondamentalement les transformateurs en traitant les paramètres du modèle comme des jetons, permettant des interactions dynamiques entre les jetons et les paramètres.
Dans ce cadre, Tokenformer introduit un nouveau composant appelé couche d'attention aux paramètres de jeton (Pattention), qui facilite la mise à l'échelle incrémentielle. Le modèle peut ajouter de nouveaux jetons de paramètres sans recyclage, ce qui réduit considérablement les coûts de formation.
En représentant les jetons d'entrée et les paramètres dans le même cadre, Tokenformer permet une mise à l'échelle flexible, offrant aux chercheurs une architecture de modèle plus efficace et plus soucieuse des ressources qui conserve l'évolutivité et les hautes performances.
La couche Pattention de Tokenformer utilise des jetons d'entrée comme requêtes, tandis que les paramètres du modèle servent de clés et de valeurs, ce qui diffère de l'approche de transformateur standard, qui repose uniquement sur des projections linéaires.
La mise à l'échelle du modèle est obtenue en ajoutant de nouvelles paires de paramètres clé-valeur, en gardant constantes les dimensions d'entrée et de sortie et en évitant un recyclage complet. L'architecture de Tokenformer est conçue pour être modulaire, permettant aux chercheurs d'étendre le modèle de manière transparente en incorporant des jetons supplémentaires.
Cette capacité de mise à l'échelle incrémentielle prend en charge la réutilisation efficace des poids pré-entraînés tout en permettant une adaptation rapide à de nouveaux ensembles de données ou à des modèles de plus grande taille sans perturber les informations apprises.
Les avantages en termes de performances de Tokenformer sont notables, car le modèle réduit considérablement les coûts de calcul tout en conservant la précision. Par exemple, Tokenformer est passé de 124 millions à 1,4 milliard de paramètres avec seulement la moitié des coûts de formation typiques requis par les transformateurs traditionnels.
Dans une expérience, le modèle a atteint une perplexité de test de 11,77 pour une configuration de 1,4 milliard de paramètres, correspondant presque à la perplexité de 11,63 d'un transformateur de taille similaire formé à partir de zéro.
Cette efficacité signifie que Tokenformer peut atteindre des performances élevées dans plusieurs domaines, y compris les tâches de langage et de modélisation visuelle, pour une fraction de la dépense en ressources des modèles traditionnels.
Tokenformer présente de nombreux points clés pour faire progresser la recherche sur l'IA et améliorer les modèles basés sur des transformateurs. Ceux-ci incluent :
Le traitement des paramètres comme des jetons permet une mise à l'échelle incrémentielle du modèle sans recyclage.
La couche d'attention des paramètres de jeton facilite une expansion efficace des paramètres.
L'architecture modulaire prend en charge une croissance transparente du modèle en incorporant des jetons supplémentaires.
Le modèle atteint des performances élevées dans divers domaines avec une dépense de ressources minimale.
En conclusion, Tokenformer propose une approche transformatrice pour mettre à l'échelle des modèles basés sur des transformateurs. Cette architecture de modèle atteint l'évolutivité et l'efficacité des ressources en traitant les paramètres comme des jetons, en réduisant les coûts et en préservant les performances du modèle entre les tâches.
Cette flexibilité représente une percée dans la conception des transformateurs, fournissant un modèle capable de s'adapter aux exigences des applications d'IA avancées sans recyclage. L'architecture de Tokenformer est prometteuse pour les futures recherches sur l'IA, offrant une voie permettant de développer des modèles à grande échelle de manière durable et efficace.
Consultez le document, la page GitHub et les modèles sur HuggingFace.
Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de nous suivre sur Twitter et de rejoindre notre chaîne Telegram et notre groupe LinkedIn. Si vous aimez notre travail, vous allez adorer notre newsletter. N'oubliez pas de rejoindre notre SubReddit 55k ML.
[Opportunité de parrainage avec nous] Faites la promotion de votre recherche/produit/webinaire auprès de 1 million de lecteurs mensuels et de 500 000 membres de la communauté
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!