Maison > Périphériques technologiques > IA > CV ouvre l'ère des grands modèles ! Google publie le plus grand ViT de l'histoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

CV ouvre l'ère des grands modèles ! Google publie le plus grand ViT de l'histoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

王林
Libérer: 2023-04-07 15:12:46
avant
1359 Les gens l'ont consulté

Transformer est sans aucun doute le plus grand contributeur à la prospérité du domaine du traitement du langage naturel, et constitue également l'infrastructure des modèles de langage à grande échelle tels que GPT-4.

Cependant, comparé aux dizaines de milliards de paramètres des modèles de langage, le domaine de la vision par ordinateur ne profite pas autant des avantages de Transformer. Actuellement, le plus grand modèle visuel de Transformer, ViT-e, ne compte que 4 milliards de paramètres.

Récemment, Google a publié un article dans lequel des chercheurs proposaient une méthode capable de former de manière efficace et stable des modèles de transformateurs de vision (ViT) à grande échelle, augmentant avec succès le nombre de paramètres ViT à 22 milliards.


CV ouvre lère des grands modèles ! Google publie le plus grand ViT de lhistoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

Lien papier : https://arxiv.org/abs/2302.05442

Afin de réaliser l'expansion du modèle, ViT-22B combine les fonctionnalités d'autres modèles de langage (tels que le modèle PaLM) L'idée est d'utiliser la normalisation QK pour améliorer la stabilité de la formation et de proposer une nouvelle méthode d'opérations linéaires parallèles asynchrones pour améliorer l'efficacité de la formation et pouvoir s'entraîner sur Cloud TPU avec une efficacité matérielle plus élevée.

Lors de la réalisation d'expériences sur le modèle ViT-22B pour évaluer les performances des tâches en aval, ViT-22B a également montré des capacités similaires aux modèles de langage à grande échelle, c'est-à-dire qu'à mesure que l'échelle du modèle augmente, les performances continuent de s'améliorer.

ViT-22B peut également être utilisé dans PaLM-e. Le grand modèle combiné au modèle de langage peut améliorer considérablement le niveau technique des tâches du robot.

Les chercheurs ont en outre observé d'autres avantages apportés par l'échelle, notamment un meilleur équilibre entre équité et performance, une cohérence avec la perception visuelle humaine en termes de biais forme/texture et une meilleure robustesse.

Architecture du modèle

ViT-22B est un modèle basé sur l'architecture Transformer. Par rapport à l'architecture ViT originale, les chercheurs ont principalement apporté trois modifications pour améliorer l'efficacité et la stabilité de la formation.

Couches parallèles

ViT-22B exécute le bloc d'attention et le bloc MLP en parallèle, alors qu'ils sont exécutés séquentiellement dans le Transformer d'origine.

CV ouvre lère des grands modèles ! Google publie le plus grand ViT de lhistoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

La formation de modèles PaLM utilise également cette méthode, qui peut augmenter la vitesse de formation des grands modèles de 15 % sans dégradation des performances.

normalisation des requêtes/clés (QK)

Dans le processus d'extension de ViT, les chercheurs ont observé dans un modèle avec 8 milliards de paramètres que la perte d'entraînement commençait à diverger après quelques milliers d'étapes d'entraînement, principalement. en raison de l'instabilité causée par des valeurs trop élevées de logits d'attention, ce qui entraîne des poids d'attention à entropie nulle (presque one-hot).

Afin de résoudre ce problème, les chercheurs ont utilisé LayerNorm sur Query et Key avant le calcul de l'attention du produit ponctuel

CV ouvre lère des grands modèles ! Google publie le plus grand ViT de lhistoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

Les résultats expérimentaux sur le modèle à 8 milliards de paramètres sont présentés dans la figure ci-dessous, la normalisation peut atténuer Problème de divergence.


CV ouvre lère des grands modèles ! Google publie le plus grand ViT de lhistoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

Supprimer le terme de biais sur la projection QKV et les LayerNorms

Comme le modèle PaLM, ViT-22B supprime le terme de biais de la projection QKV et dans toutes les LayerNorms L'absence de biais et de centrage augmente l'utilisation du matériel de 3% sans aucune dégradation de la qualité.

CV ouvre lère des grands modèles ! Google publie le plus grand ViT de lhistoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

Cependant, contrairement à PaLM, ViT-22B utilise un terme de biais pour les couches MLP (internes et externes) densément connectées, et on peut observer que la qualité est améliorée et que la vitesse n'est pas réduite.

Dans le module d'encodeur de ViT-22B, la couche d'intégration, y compris les correctifs d'extraction, les projections linéaires et les intégrations de position supplémentaires, sont les mêmes que celles utilisées dans le ViT d'origine, et le regroupement d'attention multi-têtes est utilisé pour agréger par jeton. représentations dans chaque tête.

La taille du patch du ViT-22B est de 14 × 14 et la résolution de l'image est de 224 × 224 (prétraitée par recadrage initial et retournement horizontal aléatoire).

Opérations linéaires parallèles asynchrones

Les modèles à grande échelle nécessitent également un partitionnement, c'est-à-dire que les paramètres du modèle sont répartis entre différents appareils informatiques. De plus, les chercheurs Les activations (représentations intermédiaires de l'entrée) sont également. tranché.

CV ouvre lère des grands modèles ! Google publie le plus grand ViT de lhistoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

Étant donné que l'entrée et la matrice elle-même sont réparties sur différents appareils, même des opérations simples comme la multiplication matricielle nécessitent une attention particulière.

Les chercheurs ont développé une méthode appelée opérations linéaires parallèles asynchrones qui peut simultanément contrôler les activations et les poids entre les appareils tout en calculant dans l'unité de multiplication matricielle (l'unité qui représente la grande majorité de la puissance de calcul dans la valeur du TPU pour communiquer). .

Les méthodes asynchrones minimisent le temps d'attente pour les communications entrantes, augmentant ainsi l'efficacité de l'appareil.

Le but des opérations linéaires parallèles asynchrones est de calculer la multiplication matricielle y = Ax, mais la matrice A et l'activation x sont distribuées sur différents appareils, ce qui nécessite un chevauchement des communications et des calculs entre les appareils pour y parvenir. La matrice A est répartie en colonnes sur plusieurs appareils. Chaque matrice contient une tranche contiguë, chaque bloc étant représenté par Aij. Voir l'article original pour plus de détails.

CV ouvre lère des grands modèles ! Google publie le plus grand ViT de lhistoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

Résultats expérimentaux

Pour illustrer que les représentations apprises par ViT-22B sont très riches, les chercheurs ont utilisé le réglage LiT pour entraîner un modèle de texte afin de générer des représentations permettant d'aligner le texte et les images.

Voici les résultats expérimentaux obtenus à l'aide d'images non distribuées générées par Parti et Imagen. On peut voir que la capacité de généralisation de la classification d'images zéro du ViT-22B est très forte. web. Les objets et les scènes invisibles peuvent être reconnus à l’aide d’images naturelles.

CV ouvre lère des grands modèles ! Google publie le plus grand ViT de lhistoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

L'article discute également de l'effet du ViT-22B sur les tâches de classification vidéo, d'estimation de profondeur et de segmentation sémantique.

Aligné avec la reconnaissance d'objets humains

Pour vérifier la cohérence des décisions de classification ViT-22B avec les décisions de classification humaine, les chercheurs ont affiné ViT-22B sur différentes résolutions de l'ensemble de données hors distribution (OOD). -tuning, où les données de comparaison humaine sont disponibles via la boîte à outils modèle contre humain.

Cette boîte à outils mesure principalement trois indicateurs clés : Comment le modèle gère-t-il la distorsion (précision) ? Quelle est la différence entre la précision humaine et celle du modèle (différence de précision) ? Dans quelle mesure les modèles d’erreur (cohérence des erreurs) des personnes et des modèles sont-ils similaires ?

CV ouvre lère des grands modèles ! Google publie le plus grand ViT de lhistoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

Évaluation des écarts de forme (des valeurs plus grandes représentent plus d'écarts de forme). De nombreux modèles de vision ont un biais de forme faible/texture élevée, et ViT-22B, affiné sur ImageNet, présente le biais de forme le plus élevé enregistré à ce jour parmi les modèles ML, plus proche du biais de forme humaine

Les résultats expérimentaux montrent que même si Non toutes les solutions affinées ont bien fonctionné, mais la variante ViT-22B a atteint de nouveaux sommets dans les trois paramètres.

De plus, le modèle ViT-22B possède également le record d'écart de forme le plus élevé parmi les modèles visuels. Cela signifie qu'ils utilisent principalement la forme de l'objet plutôt que la texture de l'objet pour prendre des décisions de classification, et les résultats de la stratégie sont similaires à la perception humaine (son biais de forme est de 96 %).

Les modèles standard (par exemple, ResNet-50 a un biais de forme de 20 à 30 %) sont souvent classés en fonction de la texture, tandis que les modèles avec un biais de forme élevé ont tendance à se concentrer sur la forme (identifiée comme un chat dans l'image ci-dessous), bien que les humains et modèles Il existe encore de nombreuses différences dans la perception, mais ViT-22B montre davantage de similitudes avec la reconnaissance visuelle humaine des objets.

CV ouvre lère des grands modèles ! Google publie le plus grand ViT de lhistoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

Chat ou éléphant ? Voiture ou horloge ? Oiseau ou vélo ? Les images avec la forme d'un objet et la texture d'un autre objet différent peuvent être utilisées pour mesurer l'écart de forme/texture

performances hors distribution

Mesurer les performances de l'ensemble de données OOD permet d'évaluer la généralisabilité du modèle.

Dans cette expérience, les chercheurs ont construit des mappages d'étiquettes de JFT vers ImageNet, et d'ImageNet vers différents ensembles de données hors distribution tels qu'ObjectNet.

Les résultats après pré-entraînement sur ces données sont présentés dans la figure ci-dessous, puis le modèle est entièrement affiné sur ImageNet.

CV ouvre lère des grands modèles ! Google publie le plus grand ViT de lhistoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

On peut observer que la mise à l'échelle des transformateurs de vision peut améliorer les performances OOD : même si la précision d'ImageNet atteint la saturation, on peut voir que le passage du modèle ViT-e au modèle ViT-22B sur ObjectNet peut améliorer considérablement la performance.

Sonde linéaire

La sonde linéaire est une technique qui place une seule couche linéaire au-dessus d'un modèle gelé, ce qui la rend moins coûteuse à entraîner et plus facile à configurer qu'un réglage fin complet.

CV ouvre lère des grands modèles ! Google publie le plus grand ViT de lhistoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

Résultats de détection linéaire formés sur ImageNet, évalués sur les ensembles de données ImageNet-Real, ImageNet-v2, ObjectNet, ImageNet-R et ImageNet-A, fournissant une haute résolution ViT-e/14 affinée pour référence

On peut observer à partir des résultats que les performances de détection linéaire du ViT-22B sont proches de l'état de l'art en matière de réglage entièrement fin de modèles plus petits à l'aide d'images haute résolution, où l'entraînement avec des résolutions plus élevées est généralement beaucoup plus cher, mais permet d'obtenir de meilleurs résultats sur de nombreuses tâches.

Distillation

En utilisant la méthode de distillation, la connaissance d'un modèle plus grand peut être convertie en connaissance d'un modèle plus petit, ce qui peut améliorer l'efficacité opérationnelle des grands modèles qui sont plus chers et fonctionnent plus lentement.

CV ouvre lère des grands modèles ! Google publie le plus grand ViT de lhistoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

Il ressort des résultats expérimentaux que les connaissances du ViT-22B peuvent être transférées à des modèles plus petits, tels que le ViT-B/16 et le ViT-L/16, et actualisées sur ImageNet en même temps. enregistrements de performances de taille de modèle.

Équité et biais

Les modèles d'apprentissage automatique sont sensibles à des biais injustes involontaires, tels que la recherche de mauvaises corrélations ou des écarts de performances entre sous-groupes, et les chercheurs ont découvert que la mise à l'échelle des modèles peut aider à atténuer ces problèmes.

Tout d'abord, l'échelle est un compromis prometteur Même si le modèle est entraîné puis post-traité pour contrôler son niveau de parité démographique en dessous d'un niveau prescrit et tolérable, les performances augmenteront avec le temps. l’augmentation d’échelle.


CV ouvre lère des grands modèles ! Google publie le plus grand ViT de lhistoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains


CV ouvre lère des grands modèles ! Google publie le plus grand ViT de lhistoire : 22 milliards de paramètres, la perception visuelle est proche de celle des humains

Ci-dessus : Précision de chaque sous-groupe dans CelebA avant le débiaisation. Ci-dessous : l'axe des y montre la différence absolue de performance pour les deux sous-groupes spécifiques mis en évidence dans cet exemple (femmes et hommes). Par rapport au modèle ViT plus petit, l’écart de performances du ViT-22B est très faible.

Plus important encore, cela est vrai non seulement lorsque la performance est mesurée en termes de précision, mais également pour d'autres mesures telles que l'étalonnage, c'est-à-dire une mesure statistique de la véracité des probabilités estimées du modèle, avec tous les sous-groupes classés comme It a tendance à s'améliorer avec l'augmentation de l'échelle, et ViT-22B réduit l'écart de performances entre les sous-groupes.

Conclusion

Les chercheurs ont proposé l'un des plus grands modèles de transformateur visuel actuellement, le ViT-22B, contenant 22 milliards de paramètres.

En apportant des modifications mineures mais clés à l'architecture du modèle d'origine, une utilisation matérielle et une stabilité de formation plus élevées sont obtenues, ce qui aboutit à un modèle qui améliore les performances de la limite supérieure sur plusieurs benchmarks.

En utilisant des modèles gelés pour générer des intégrations, en n'ayant besoin que de former quelques couches au-dessus, on peut obtenir de très bonnes performances, et les résultats de l'évaluation montrent en outre que ViT-22B présente un biais de forme et de texture significatif par rapport aux modèles existants. Une plus grande similarité à la perception visuelle humaine et offre des avantages en termes d'équité et de robustesse.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal