La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com.
- Lien papier : https://arxiv.org/abs/2403.12494
- Lien code : https://github.com/YangSun22/TC-MoA
- Titre du papier : Mélange d'adaptateurs personnalisés en fonction des tâches pour la fusion générale d'images
融 Figure 1 L'image source de différentes tâches de fusion sur le changement d'intensité dominant des résultats de fusion
Contexte et motivation de la recherche
Le but de la fusion d'images est de capturer différents capteurs dans la même scène. les informations complémentaires de plusieurs images sources sont intégrées dans une seule image. Cette méthode est généralement utilisée pour extraire des informations importantes des images et améliorer la qualité visuelle. À l'heure actuelle, la fusion d'images générale comprend principalement la fusion d'images multimodales, multi-expositions, multifocales, etc. Les tâches de fusion présentent différents mécanismes de fusion. La fusion d'images multi-expositions (MEF) se concentre sur la conversion de séquences d'images avec plusieurs niveaux d'exposition en une image pleine exposition de haute qualité. Chaque image source fournit son propre éclairage et ses propres informations structurelles à l'image fusionnée. La fusion d'images infrarouges visibles (VIF) est un type de fusion d'images multimodales (MMF) qui vise à fusionner des informations complémentaires provenant des modalités infrarouges et visibles pour produire des images fusionnées robustes et riches en informations. Les images infrarouges fournissent plus d'informations sur l'intensité, tandis que les images visibles fournissent plus d'informations sur la texture et le dégradé. Le but de la fusion d'images multifocales (MFF) est de générer une image entièrement focalisée à partir d'une série d'images partiellement focalisées. Chaque région claire d’une image fusionnée multifocale ne doit généralement être apprise qu’à partir d’une seule image source. Par conséquent, on peut observer que les tâches MEF et VIF sont des fusions relativement égales de plusieurs sources, tandis que MFF est une tâche avec un statut multi-sources plus extrême, montrant souvent une sélection polarisée pour une certaine zone de l'image. Avec le développement rapide de la technologie d'apprentissage profond, de grands progrès ont été réalisés dans le domaine de la fusion d'images ces dernières années. Cependant, la plupart des méthodes existantes se concentrent uniquement sur un seul scénario de fusion d'images, utilisant généralement une stratégie spécifique. pour une seule tâche, comme pour une certaine Le réseau complexe conçu pour la tâche ou la fonction de perte spécifique à la tâche empêche son application directe à d'autres tâches. Considérant que l'essence des différentes tâches de fusion est la même, c'est-à-dire intégrer des informations importantes provenant de plusieurs images sources, certaines méthodes récemment proposées tentent d'utiliser un modèle unifié pour gérer plusieurs tâches de fusion et créer une fusion d'images universelle. Cependant, ces méthodes souffrent d’un biais de tâche dominante ou sacrifient l’individualité au profit d’une communauté multitâche, ce qui entraîne des performances sous-optimales. Cela nous motive à explorer un paradigme de fusion plus compatible qui peut être compatible de manière adaptative et dynamique avec différents scénarios de fusion. Pour relever ce défi, inspirés par les puissantes capacités de représentation de caractéristiques du modèle de base pré-entraîné, nous introduisons le modèle de base en tant qu'encodeur figé pour extraire des caractéristiques complémentaires d'images multi-sources. Différent de la plupart des méthodes existantes, nous nous appuyons sur l'idée des experts mixtes (MoE) et traitons chaque expert comme un adaptateur efficace et affiné pour effectuer une fusion adaptative de repères de caractéristiques visuelles basée sur le modèle de base. Les réseaux de routage spécifiques à des tâches adaptent une combinaison de ces adaptateurs pour générer des signaux de fusion spécifiques à des tâches pour différentes sources, formant ainsi une nouvelle architecture d'adaptateur hybride personnalisé par tâche (TC-MoA). De plus, nous concevons une régularisation mutuelle des informations pour contraindre les signaux de fusion, assurant ainsi la complémentarité des différentes sources. Notamment, les signaux de fusion présentaient des différences significatives de biais de tâche et de force de dominance de modalité. Comme le montre la figure 1, les signaux MFF présentent des différences de couleur plus importantes que VIF et MEF, ce qui indique que la sélection des caractéristiques est plus bipolaire dans le biais d'intensité du mode dominant. Notre modèle perçoit efficacement le biais de force de fusion entre différentes tâches de fusion dans un seul modèle et est donc compatible avec un plus large éventail de tâches de fusion. Des expériences approfondies ont vérifié notre supériorité dans la fusion générale d'images, y compris la fusion multimodale, multi-exposition et multifocale. Plus important encore, notre TC-MoA fait preuve d'une contrôlabilité créative et d'une généralisation même à des tâches de fusion inconnues, démontrant pleinement notre potentiel dans un plus large éventail de scénarios de fusion. Contributions principales
Nous proposons un modèle général unifié de fusion d'images, fournissant un nouvel adaptateur hybride adapté aux tâches (TC-MoA) pour la fusion adaptative d'images multi-sources (bénéficiant de l'agrégation dynamique d'informations valides provenant des schémas respectifs).
- Nous proposons une méthode de régularisation mutuelle des informations pour les adaptateurs, qui permet à notre modèle d'identifier plus précisément l'intensité dominante des différentes images sources.
- Au meilleur de nos connaissances, nous proposons pour la première fois un adaptateur flexible basé sur MoE. En ajoutant seulement 2,8 % des paramètres apprenables, notre modèle peut gérer de nombreuses tâches de fusion. Des expériences approfondies démontrent les avantages de nos méthodes concurrentes tout en montrant une contrôlabilité et une généralisation significatives.
Comme le montre la figure 2, étant donné une paire d'images sources , le réseau intègre des informations complémentaires provenant de différentes sources pour obtenir une image fusionnée . Nous entrons l'image source dans le réseau ViT et obtenons le jeton de l'image source via la couche d'encodage du patch. ViT se compose d'un encodeur pour l'extraction de caractéristiques et d'un décodeur pour la reconstruction d'images, tous deux composés de blocs Transformer. Insérez un TC-MoA dans chaque bloc Transformer dans l'encodeur et le décodeur. Le réseau module progressivement le résultat de la fusion via ces TC-MoA. Chaque TC-MoA se compose d'une banque de routeurs spécifiques à une tâche , d'une banque d'adaptateurs de partage de tâches et d'une couche de fusion d'indices F. TC-MoA se compose de deux étapes principales : la génération de signaux et la fusion pilotée par signaux. Pour faciliter l'expression, nous prenons VIF comme exemple, supposons que l'entrée provient de l'ensemble de données VIF et utilisons G pour représenter . O Figure 2 L'architecture globale de TC-MOA
Rappel à générer
. Premièrement, des fonctionnalités multi-sources sont obtenues pour un traitement ultérieur. La structure du réseau avant le jème TC-MoA est définie comme , et les fonctionnalités de génération de signaux extraites sont définies comme
. Nous concaténons en tant que représentations de caractéristiques de paires de jetons multi-sources. Cela permet aux jetons de différentes sources d'échanger des informations au sein du réseau suivant. Cependant, le calcul direct de caractéristiques concaténées de grande dimension apportera un grand nombre de paramètres inutiles. Par conséquent, nous utilisons pour effectuer une réduction de dimensionnalité des caractéristiques et obtenir les caractéristiques multi-sources traitées
, comme suit : Ensuite, en fonction de la tâche à laquelle Φ appartient, nous sélectionnons un routeur spécifique à la tâche dans la banque de routeurs pour personnaliser le schéma de routage, c'est-à-dire quel adaptateur dans la banque d'adaptateurs doit être saisi pour chaque paire de jetons source. Enfin, nous effectuons une somme pondérée des sorties de l'adaptateur pour obtenir l'indice de fusion. Chaque routeur dispose de préférences de tâches pour personnaliser le mélange d'adaptateurs approprié, qui génère ensuite des indices à partir du mélange d'adaptateurs, calculés comme suit :
Tip-Driven Fusion. Les indices adaptés aux tâches sont soumis à une régularisation mutuelle des informations (MIR), qui garantit la complémentarité des différentes sources. Les indices servent donc d’estimation de la proportion d’informations importantes dans chaque source. Grâce au produit scalaire de fonctionnalités et d'indices multi-sources, nous conservons les informations complémentaires tout en supprimant les informations redondantes. Ensuite, étant donné que la représentation des caractéristiques doit contenir des biais dépendants de la source (tels que des images visibles ou infrarouges), nous introduisons des paramètres apprenables indépendants de l'entrée pour chaque source, c'est-à-dire les codages de source. Une fois les caractéristiques modifiées par des indices et biaisés par la source, nous obtenons les caractéristiques sources raffinées , puis obtenons les caractéristiques de fusion via la couche de fusion F. Le processus est le suivant :
Enfin, nous obtenons une fonctionnalité de fusion via des conseils personnalisés en fonction des tâches. Pour encourager le modèle à extraire des informations importantes étape par étape, nous définissons les caractéristiques de sortie vers le prochain bloc Transformer comme suit ( est un hyperparamètre) :
Mutual Information Regular. Afin de garantir que le modèle conserve dynamiquement les informations complémentaires tout en éliminant les informations redondantes des fonctionnalités multi-sources, nous imposons des contraintes de régularisation aux invites. En supposant que la représentation des caractéristiques change de manière linéaire, nous définissons MIR comme suit :
Expériences qualitatives et quantitatives. Comme le montrent la figure 3-5 et le tableau 1-3, les comparaisons qualitatives et quantitatives sur trois tâches de fusion montrent que les performances de notre méthode surpassent les méthodes de fusion générales précédentes. Par rapport aux méthodes spécifiques à des tâches, notre méthode atteint également des performances de pointe sur toutes les tâches et même des avancées sur certaines tâches (VIF). La supériorité de la méthode proposée est prouvée.务 Figure 3 Ensemble de données de la tâche VIF LLVIP L'expérience comparative qualitative
Figure 4 Ensemble de données de la tâche MEF MEFB L'expérience comparative qualitative
5 Expériences comparatives qualitatives sur les données de la tâche MFF ensemble
Tableau 1 Expériences comparatives quantitatives sur l'ensemble de données LLVIP de la tâche VIF务 Tableau 2 Expérience comparative quantitative de l'ensemble de données LLVIP de la tâche MEF Tableau 3 Ensemble de données LLVIP de la tâche MFF L'expérience comparative quantitative de l'ensemble de données LLVIP
de la tâche de la figure 6 Contrôlabilité et généralisation à des tâches inconnues
Contrôleabilité et généralisation. Comme le montre la figure 6, en contrôlant les hyperparamètres α et β de l'invite de fusion, nous pouvons respectivement contrôler la force de sélection des caractéristiques du modèle pour les informations complémentaires de l'image source (niveau région) et la similarité entre l'image fusionnée et une certaine image source (niveau d'image). Nous pouvons fusionner les signaux grâce à une transformation linéaire, générant finalement une image fusionnée personnalisée. Pour les tâches connues, telles que la fusion multi-exposition, nous pouvons obtenir des résultats de fusion personnalisés qui correspondent le mieux à la perception humaine. Pour les tâches inconnues, nous pouvons moduler les paramètres de fusion les plus appropriés et généraliser le modèle aux tâches inconnues. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!