Une dernière recherche menée par Meta AI et l'Université d'Amsterdam a montré que les transformateurs, une architecture de réseau neuronal populaire, peuvent fonctionner directement sur les pixels individuels d'une image sans compter sur le biais inductif de localité présent dans la plupart des modèles de vision par ordinateur modernes.
Meta AI et des chercheurs de l'Université d'Amsterdam ont démontré que les transformateurs, une architecture de réseau neuronal populaire, peuvent fonctionner directement sur les pixels individuels d'une image, sans s'appuyer sur le biais inductif de localité présent dans la plupart des modèles de vision par ordinateur modernes.
Leur L'étude, intitulée « Transformers on Individual Pixels », remet en question la croyance de longue date selon laquelle la localité – la notion selon laquelle les pixels voisins sont plus liés que les pixels distants – est une exigence fondamentale pour les tâches de vision.
Traditionnellement, les architectures de vision par ordinateur comme les réseaux de neurones convolutifs (ConvNets) et Vision Transformers (ViT) ont incorporé un biais de localité grâce à des techniques telles que les noyaux convolutifs, les opérations de pooling et la patchification, en supposant que les pixels voisins sont plus liés.
En revanche, les chercheurs ont introduit les Pixel Transformers (PiT), qui traitent chacun pixel en tant que jeton individuel, supprimant toute hypothèse sur la structure de grille 2D des images. Étonnamment, les PiT ont obtenu des résultats très performants dans diverses tâches.
Par exemple, lorsque les PiT ont été appliqués à des tâches de génération d'images utilisant des espaces de jetons latents de VQGAN, ils ont surpassé leurs homologues axés sur la localité sur des mesures de qualité telles que la distance de création de Fréchet (FID) et la création. Score (IS).
Bien que les PiT, fonctionnant sur le modèle des transformateurs Perceiver IO, puissent être coûteux en termes de calcul en raison de séquences plus longues, ils remettent en question la nécessité d'un biais de localité dans les modèles de vision. À mesure que des progrès sont réalisés dans la gestion de grandes longueurs de séquences, les PiT pourraient devenir plus pratiques.
Source d'actualité:
https://www.kdj.com/cryptocurrencies-news/articles/pixel-transformers-pits-challenge-locality-bias-vision-models.html
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!