Au fil des ans, trois réseaux fédérateurs visuels, Transformer, CNN à grand noyau et MLP, ont obtenu un grand succès dans un large éventail de tâches de vision par ordinateur, principalement en raison de leur efficacité à l'échelle mondiale. pour fusionner les informations
Transformer, CNN et MLP sont actuellement les trois réseaux neuronaux principaux, et ils utilisent chacun des méthodes différentes pour réaliser une fusion mondiale de jetons. Dans le réseau Transformer, le mécanisme d'auto-attention utilise la corrélation des paires requête-clé comme poids de la fusion des jetons. CNN atteint des performances similaires à celles de Transformer en augmentant la taille du noyau de convolution. MLP implémente un autre paradigme puissant entre tous les jetons grâce à une connectivité complète. Bien que ces méthodes soient efficaces, elles ont une complexité de calcul élevée (O(N^2)) et sont difficiles à déployer sur des appareils dotés de capacités de stockage et de calcul limitées, limitant ainsi la portée d'application de nombreux modèles
Afin de résoudre ce problème coûteux en termes de calcul, les chercheurs ont développé une fusion de jetons globale efficace appelée algorithme de filtre de Fourier adaptatif (AFF). Cet algorithme utilise la transformée de Fourier pour convertir l'ensemble de jetons dans le domaine fréquentiel et apprend un masque de filtre capable d'adapter le contenu dans le domaine fréquentiel pour effectuer des opérations de filtrage adaptatif sur l'ensemble de jetons converti dans l'espace du domaine fréquentiel
Filtres de fréquence adaptatifs : Efficient Global Token Mixers
Cliquez sur ce lien pour accéder au texte original : https://arxiv.org/abs/2307.14008
Selon le théorème de convolution du domaine fréquentiel, les mathématiques de AFF Token Mixer L'opération équivalente est une opération de convolution effectuée dans le domaine d'origine, qui équivaut à l'opération produit Hadamard effectuée dans le domaine de Fourier. Cela signifie qu'AFF Token Mixer peut réaliser une fusion globale de jetons adaptative au contenu en utilisant un noyau de convolution dynamique dans le domaine d'origine, dont la résolution spatiale est la même que la taille de l'ensemble de jetons (comme le montre la sous-figure de droite de la figure ci-dessous).
Il est bien connu que la convolution dynamique est coûteuse en termes de calcul, en particulier lors de l'utilisation de noyaux de convolution dynamique avec une grande résolution spatiale. Ce coût semble inacceptable pour une conception de réseau efficace/légère. Cependant, le mélangeur de jetons AFF proposé dans cet article peut répondre simultanément aux exigences ci-dessus dans une implémentation équivalente avec une faible consommation d'énergie, réduisant la complexité de O (N^2) à O (N log N), améliorant ainsi considérablement l'efficacité de calcul
Diagramme schématique 1 : montre la structure du module AFF et du réseau AFFNet
En utilisant AFF Token Mixer comme principal opérateur d'exploitation du réseau neuronal. , Les chercheurs ont réussi à construire un réseau neuronal léger appelé AFFNet. De riches résultats expérimentaux montrent qu'AFF Token Mixer atteint un excellent équilibre entre précision et efficacité dans un large éventail de tâches visuelles, y compris la reconnaissance sémantique visuelle et les tâches de prédiction dense
Les chercheurs ont évalué les performances d'AFF. Token Mixer et AFFNet sur plusieurs tâches telles que la reconnaissance sémantique visuelle, la segmentation et la détection sont comparés au réseau fédérateur visuel léger le plus avancé dans le domaine de recherche actuel. Les résultats expérimentaux montrent que la conception du modèle fonctionne bien dans un large éventail de tâches visuelles, confirmant le potentiel d'AFF Token Mixer en tant que nouvelle génération d'opérateur de fusion de jetons léger et efficace
Par rapport à SOTA, la figure 2 montre Acc -Courbes Param et Acc-FLOPs sur l'ensemble de données ImageNet-1K
En comparant les résultats des méthodes de pointe avec l'ensemble de données ImageNet-1K, voir Tableau 1
Le tableau 2 montre la comparaison des tâches de détection visuelle et de segmentation avec des techniques de pointe
Cette étude prouve que la transformation du domaine fréquentiel dans l'espace latent joue un rôle important dans la fusion adaptative globale des jetons et constitue une implémentation équivalente efficace et de faible consommation. Il fournit de nouvelles idées de recherche pour la conception d'opérateurs de fusion de jetons dans les réseaux de neurones et offre un nouvel espace de développement pour le déploiement de modèles de réseaux de neurones sur des appareils de pointe, en particulier lorsque les capacités de stockage et de calcul sont limitées
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!