Transformer est sans aucun doute le plus grand contributeur à la prospérité du domaine du traitement du langage naturel, et constitue également l'infrastructure des modèles de langage à grande échelle tels que GPT-4.
Cependant, comparé aux dizaines de milliards de paramètres des modèles de langage, le domaine de la vision par ordinateur ne profite pas autant des avantages de Transformer. Actuellement, le plus grand modèle visuel de Transformer, ViT-e, ne compte que 4 milliards de paramètres.
Récemment, Google a publié un article dans lequel des chercheurs proposaient une méthode capable de former de manière efficace et stable des modèles de transformateurs de vision (ViT) à grande échelle, augmentant avec succès le nombre de paramètres ViT à 22 milliards.
Lien papier : https://arxiv.org/abs/2302.05442
Afin de réaliser l'expansion du modèle, ViT-22B combine les fonctionnalités d'autres modèles de langage (tels que le modèle PaLM) L'idée est d'utiliser la normalisation QK pour améliorer la stabilité de la formation et de proposer une nouvelle méthode d'opérations linéaires parallèles asynchrones pour améliorer l'efficacité de la formation et pouvoir s'entraîner sur Cloud TPU avec une efficacité matérielle plus élevée.
Lors de la réalisation d'expériences sur le modèle ViT-22B pour évaluer les performances des tâches en aval, ViT-22B a également montré des capacités similaires aux modèles de langage à grande échelle, c'est-à-dire qu'à mesure que l'échelle du modèle augmente, les performances continuent de s'améliorer.
ViT-22B peut également être utilisé dans PaLM-e. Le grand modèle combiné au modèle de langage peut améliorer considérablement le niveau technique des tâches du robot.
Les chercheurs ont en outre observé d'autres avantages apportés par l'échelle, notamment un meilleur équilibre entre équité et performance, une cohérence avec la perception visuelle humaine en termes de biais forme/texture et une meilleure robustesse.
ViT-22B est un modèle basé sur l'architecture Transformer. Par rapport à l'architecture ViT originale, les chercheurs ont principalement apporté trois modifications pour améliorer l'efficacité et la stabilité de la formation.
Couches parallèles
ViT-22B exécute le bloc d'attention et le bloc MLP en parallèle, alors qu'ils sont exécutés séquentiellement dans le Transformer d'origine.
La formation de modèles PaLM utilise également cette méthode, qui peut augmenter la vitesse de formation des grands modèles de 15 % sans dégradation des performances.
normalisation des requêtes/clés (QK)
Dans le processus d'extension de ViT, les chercheurs ont observé dans un modèle avec 8 milliards de paramètres que la perte d'entraînement commençait à diverger après quelques milliers d'étapes d'entraînement, principalement. en raison de l'instabilité causée par des valeurs trop élevées de logits d'attention, ce qui entraîne des poids d'attention à entropie nulle (presque one-hot).
Afin de résoudre ce problème, les chercheurs ont utilisé LayerNorm sur Query et Key avant le calcul de l'attention du produit ponctuel
Les résultats expérimentaux sur le modèle à 8 milliards de paramètres sont présentés dans la figure ci-dessous, la normalisation peut atténuer Problème de divergence.
Supprimer le terme de biais sur la projection QKV et les LayerNorms
Comme le modèle PaLM, ViT-22B supprime le terme de biais de la projection QKV et dans toutes les LayerNorms L'absence de biais et de centrage augmente l'utilisation du matériel de 3% sans aucune dégradation de la qualité.
Cependant, contrairement à PaLM, ViT-22B utilise un terme de biais pour les couches MLP (internes et externes) densément connectées, et on peut observer que la qualité est améliorée et que la vitesse n'est pas réduite.
Dans le module d'encodeur de ViT-22B, la couche d'intégration, y compris les correctifs d'extraction, les projections linéaires et les intégrations de position supplémentaires, sont les mêmes que celles utilisées dans le ViT d'origine, et le regroupement d'attention multi-têtes est utilisé pour agréger par jeton. représentations dans chaque tête.
La taille du patch du ViT-22B est de 14 × 14 et la résolution de l'image est de 224 × 224 (prétraitée par recadrage initial et retournement horizontal aléatoire).
Opérations linéaires parallèles asynchrones
Les modèles à grande échelle nécessitent également un partitionnement, c'est-à-dire que les paramètres du modèle sont répartis entre différents appareils informatiques. De plus, les chercheurs Les activations (représentations intermédiaires de l'entrée) sont également. tranché.
Étant donné que l'entrée et la matrice elle-même sont réparties sur différents appareils, même des opérations simples comme la multiplication matricielle nécessitent une attention particulière.
Les chercheurs ont développé une méthode appelée opérations linéaires parallèles asynchrones qui peut simultanément contrôler les activations et les poids entre les appareils tout en calculant dans l'unité de multiplication matricielle (l'unité qui représente la grande majorité de la puissance de calcul dans la valeur du TPU pour communiquer). .
Les méthodes asynchrones minimisent le temps d'attente pour les communications entrantes, augmentant ainsi l'efficacité de l'appareil.
Le but des opérations linéaires parallèles asynchrones est de calculer la multiplication matricielle y = Ax, mais la matrice A et l'activation x sont distribuées sur différents appareils, ce qui nécessite un chevauchement des communications et des calculs entre les appareils pour y parvenir. La matrice A est répartie en colonnes sur plusieurs appareils. Chaque matrice contient une tranche contiguë, chaque bloc étant représenté par Aij. Voir l'article original pour plus de détails.
Pour illustrer que les représentations apprises par ViT-22B sont très riches, les chercheurs ont utilisé le réglage LiT pour entraîner un modèle de texte afin de générer des représentations permettant d'aligner le texte et les images.
Voici les résultats expérimentaux obtenus à l'aide d'images non distribuées générées par Parti et Imagen. On peut voir que la capacité de généralisation de la classification d'images zéro du ViT-22B est très forte. web. Les objets et les scènes invisibles peuvent être reconnus à l’aide d’images naturelles.
L'article discute également de l'effet du ViT-22B sur les tâches de classification vidéo, d'estimation de profondeur et de segmentation sémantique.
Pour vérifier la cohérence des décisions de classification ViT-22B avec les décisions de classification humaine, les chercheurs ont affiné ViT-22B sur différentes résolutions de l'ensemble de données hors distribution (OOD). -tuning, où les données de comparaison humaine sont disponibles via la boîte à outils modèle contre humain.
Cette boîte à outils mesure principalement trois indicateurs clés : Comment le modèle gère-t-il la distorsion (précision) ? Quelle est la différence entre la précision humaine et celle du modèle (différence de précision) ? Dans quelle mesure les modèles d’erreur (cohérence des erreurs) des personnes et des modèles sont-ils similaires ?
Évaluation des écarts de forme (des valeurs plus grandes représentent plus d'écarts de forme). De nombreux modèles de vision ont un biais de forme faible/texture élevée, et ViT-22B, affiné sur ImageNet, présente le biais de forme le plus élevé enregistré à ce jour parmi les modèles ML, plus proche du biais de forme humaine
Les résultats expérimentaux montrent que même si Non toutes les solutions affinées ont bien fonctionné, mais la variante ViT-22B a atteint de nouveaux sommets dans les trois paramètres.
De plus, le modèle ViT-22B possède également le record d'écart de forme le plus élevé parmi les modèles visuels. Cela signifie qu'ils utilisent principalement la forme de l'objet plutôt que la texture de l'objet pour prendre des décisions de classification, et les résultats de la stratégie sont similaires à la perception humaine (son biais de forme est de 96 %).
Les modèles standard (par exemple, ResNet-50 a un biais de forme de 20 à 30 %) sont souvent classés en fonction de la texture, tandis que les modèles avec un biais de forme élevé ont tendance à se concentrer sur la forme (identifiée comme un chat dans l'image ci-dessous), bien que les humains et modèles Il existe encore de nombreuses différences dans la perception, mais ViT-22B montre davantage de similitudes avec la reconnaissance visuelle humaine des objets.
Chat ou éléphant ? Voiture ou horloge ? Oiseau ou vélo ? Les images avec la forme d'un objet et la texture d'un autre objet différent peuvent être utilisées pour mesurer l'écart de forme/texture
Mesurer les performances de l'ensemble de données OOD permet d'évaluer la généralisabilité du modèle.
Dans cette expérience, les chercheurs ont construit des mappages d'étiquettes de JFT vers ImageNet, et d'ImageNet vers différents ensembles de données hors distribution tels qu'ObjectNet.
Les résultats après pré-entraînement sur ces données sont présentés dans la figure ci-dessous, puis le modèle est entièrement affiné sur ImageNet.
On peut observer que la mise à l'échelle des transformateurs de vision peut améliorer les performances OOD : même si la précision d'ImageNet atteint la saturation, on peut voir que le passage du modèle ViT-e au modèle ViT-22B sur ObjectNet peut améliorer considérablement la performance.
La sonde linéaire est une technique qui place une seule couche linéaire au-dessus d'un modèle gelé, ce qui la rend moins coûteuse à entraîner et plus facile à configurer qu'un réglage fin complet.
Résultats de détection linéaire formés sur ImageNet, évalués sur les ensembles de données ImageNet-Real, ImageNet-v2, ObjectNet, ImageNet-R et ImageNet-A, fournissant une haute résolution ViT-e/14 affinée pour référence
On peut observer à partir des résultats que les performances de détection linéaire du ViT-22B sont proches de l'état de l'art en matière de réglage entièrement fin de modèles plus petits à l'aide d'images haute résolution, où l'entraînement avec des résolutions plus élevées est généralement beaucoup plus cher, mais permet d'obtenir de meilleurs résultats sur de nombreuses tâches.
En utilisant la méthode de distillation, la connaissance d'un modèle plus grand peut être convertie en connaissance d'un modèle plus petit, ce qui peut améliorer l'efficacité opérationnelle des grands modèles qui sont plus chers et fonctionnent plus lentement.
Il ressort des résultats expérimentaux que les connaissances du ViT-22B peuvent être transférées à des modèles plus petits, tels que le ViT-B/16 et le ViT-L/16, et actualisées sur ImageNet en même temps. enregistrements de performances de taille de modèle.
Les modèles d'apprentissage automatique sont sensibles à des biais injustes involontaires, tels que la recherche de mauvaises corrélations ou des écarts de performances entre sous-groupes, et les chercheurs ont découvert que la mise à l'échelle des modèles peut aider à atténuer ces problèmes.
Tout d'abord, l'échelle est un compromis prometteur Même si le modèle est entraîné puis post-traité pour contrôler son niveau de parité démographique en dessous d'un niveau prescrit et tolérable, les performances augmenteront avec le temps. l’augmentation d’échelle.
Ci-dessus : Précision de chaque sous-groupe dans CelebA avant le débiaisation. Ci-dessous : l'axe des y montre la différence absolue de performance pour les deux sous-groupes spécifiques mis en évidence dans cet exemple (femmes et hommes). Par rapport au modèle ViT plus petit, l’écart de performances du ViT-22B est très faible.
Plus important encore, cela est vrai non seulement lorsque la performance est mesurée en termes de précision, mais également pour d'autres mesures telles que l'étalonnage, c'est-à-dire une mesure statistique de la véracité des probabilités estimées du modèle, avec tous les sous-groupes classés comme It a tendance à s'améliorer avec l'augmentation de l'échelle, et ViT-22B réduit l'écart de performances entre les sous-groupes.
Les chercheurs ont proposé l'un des plus grands modèles de transformateur visuel actuellement, le ViT-22B, contenant 22 milliards de paramètres.
En apportant des modifications mineures mais clés à l'architecture du modèle d'origine, une utilisation matérielle et une stabilité de formation plus élevées sont obtenues, ce qui aboutit à un modèle qui améliore les performances de la limite supérieure sur plusieurs benchmarks.
En utilisant des modèles gelés pour générer des intégrations, en n'ayant besoin que de former quelques couches au-dessus, on peut obtenir de très bonnes performances, et les résultats de l'évaluation montrent en outre que ViT-22B présente un biais de forme et de texture significatif par rapport aux modèles existants. Une plus grande similarité à la perception visuelle humaine et offre des avantages en termes d'équité et de robustesse.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!