Maison Périphériques technologiques IA CVPR 2024 | Un modèle général de fusion d'images basé sur MoE, ajoutant 2,8 % de paramètres pour effectuer plusieurs tâches

CVPR 2024 | Un modèle général de fusion d'images basé sur MoE, ajoutant 2,8 % de paramètres pour effectuer plusieurs tâches

Apr 24, 2024 pm 02:28 PM
git 工程 图像融合

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com.

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

  • Lien papier : https://arxiv.org/abs/2403.12494
  • Lien code : https://github.com/YangSun22/TC-MoA
  • Titre du papier : Mélange d'adaptateurs personnalisés en fonction des tâches pour la fusion générale d'images

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

融 Figure 1 L'image source de différentes tâches de fusion sur le changement d'intensité dominant des résultats de fusion
Contexte et motivation de la recherche

Le but de la fusion d'images est de capturer différents capteurs dans la même scène. les informations complémentaires de plusieurs images sources sont intégrées dans une seule image. Cette méthode est généralement utilisée pour extraire des informations importantes des images et améliorer la qualité visuelle.

À l'heure actuelle, la fusion d'images générale comprend principalement la fusion d'images multimodales, multi-expositions, multifocales, etc. Les tâches de fusion présentent différents mécanismes de fusion. La fusion d'images multi-expositions (MEF) se concentre sur la conversion de séquences d'images avec plusieurs niveaux d'exposition en une image pleine exposition de haute qualité. Chaque image source fournit son propre éclairage et ses propres informations structurelles à l'image fusionnée. La fusion d'images infrarouges visibles (VIF) est un type de fusion d'images multimodales (MMF) qui vise à fusionner des informations complémentaires provenant des modalités infrarouges et visibles pour produire des images fusionnées robustes et riches en informations. Les images infrarouges fournissent plus d'informations sur l'intensité, tandis que les images visibles fournissent plus d'informations sur la texture et le dégradé. Le but de la fusion d'images multifocales (MFF) est de générer une image entièrement focalisée à partir d'une série d'images partiellement focalisées. Chaque région claire d’une image fusionnée multifocale ne doit généralement être apprise qu’à partir d’une seule image source. Par conséquent, on peut observer que les tâches MEF et VIF sont des fusions relativement égales de plusieurs sources, tandis que MFF est une tâche avec un statut multi-sources plus extrême, montrant souvent une sélection polarisée pour une certaine zone de l'image.

Avec le développement rapide de la technologie d'apprentissage profond, de grands progrès ont été réalisés dans le domaine de la fusion d'images ces dernières années. Cependant, la plupart des méthodes existantes se concentrent uniquement sur un seul scénario de fusion d'images, utilisant généralement une stratégie spécifique. pour une seule tâche, comme pour une certaine Le réseau complexe conçu pour la tâche ou la fonction de perte spécifique à la tâche empêche son application directe à d'autres tâches. Considérant que l'essence des différentes tâches de fusion est la même, c'est-à-dire intégrer des informations importantes provenant de plusieurs images sources, certaines méthodes récemment proposées tentent d'utiliser un modèle unifié pour gérer plusieurs tâches de fusion et créer une fusion d'images universelle. Cependant, ces méthodes souffrent d’un biais de tâche dominante ou sacrifient l’individualité au profit d’une communauté multitâche, ce qui entraîne des performances sous-optimales. Cela nous motive à explorer un paradigme de fusion plus compatible qui peut être compatible de manière adaptative et dynamique avec différents scénarios de fusion.

Pour relever ce défi, inspirés par les puissantes capacités de représentation de caractéristiques du modèle de base pré-entraîné, nous introduisons le modèle de base en tant qu'encodeur figé pour extraire des caractéristiques complémentaires d'images multi-sources. Différent de la plupart des méthodes existantes, nous nous appuyons sur l'idée des experts mixtes (MoE) et traitons chaque expert comme un adaptateur efficace et affiné pour effectuer une fusion adaptative de repères de caractéristiques visuelles basée sur le modèle de base. Les réseaux de routage spécifiques à des tâches adaptent une combinaison de ces adaptateurs pour générer des signaux de fusion spécifiques à des tâches pour différentes sources, formant ainsi une nouvelle architecture d'adaptateur hybride personnalisé par tâche (TC-MoA). De plus, nous concevons une régularisation mutuelle des informations pour contraindre les signaux de fusion, assurant ainsi la complémentarité des différentes sources. Notamment, les signaux de fusion présentaient des différences significatives de biais de tâche et de force de dominance de modalité. Comme le montre la figure 1, les signaux MFF présentent des différences de couleur plus importantes que VIF et MEF, ce qui indique que la sélection des caractéristiques est plus bipolaire dans le biais d'intensité du mode dominant. Notre modèle perçoit efficacement le biais de force de fusion entre différentes tâches de fusion dans un seul modèle et est donc compatible avec un plus large éventail de tâches de fusion.

Des expériences approfondies ont vérifié notre supériorité dans la fusion générale d'images, y compris la fusion multimodale, multi-exposition et multifocale. Plus important encore, notre TC-MoA fait preuve d'une contrôlabilité créative et d'une généralisation même à des tâches de fusion inconnues, démontrant pleinement notre potentiel dans un plus large éventail de scénarios de fusion.

Contributions principales

Nous proposons un modèle général unifié de fusion d'images, fournissant un nouvel adaptateur hybride adapté aux tâches (TC-MoA) pour la fusion adaptative d'images multi-sources (bénéficiant de l'agrégation dynamique d'informations valides provenant des schémas respectifs).
  • Nous proposons une méthode de régularisation mutuelle des informations pour les adaptateurs, qui permet à notre modèle d'identifier plus précisément l'intensité dominante des différentes images sources.
  • Au meilleur de nos connaissances, nous proposons pour la première fois un adaptateur flexible basé sur MoE. En ajoutant seulement 2,8 % des paramètres apprenables, notre modèle peut gérer de nombreuses tâches de fusion. Des expériences approfondies démontrent les avantages de nos méthodes concurrentes tout en montrant une contrôlabilité et une généralisation significatives.

Méthode de base

Comme le montre la figure 2, étant donné une paire d'images sources CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务, le réseau intègre des informations complémentaires provenant de différentes sources pour obtenir une image fusionnée CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务. Nous entrons l'image source dans le réseau ViT et obtenons le jeton de l'image source via la couche d'encodage du patch. ViT se compose d'un encodeur pour l'extraction de caractéristiques et d'un décodeur pour la reconstruction d'images, tous deux composés de blocs Transformer.

Insérez un TC-MoA dans chaque bloc CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务Transformer dans l'encodeur et le décodeur. Le réseau module progressivement le résultat de la fusion via ces TC-MoA. Chaque TC-MoA se compose d'une banque de routeurs spécifiques à une tâche CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务, d'une banque d'adaptateurs de partage de tâches CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务 et d'une couche de fusion d'indices F. TC-MoA se compose de deux étapes principales : la génération de signaux et la fusion pilotée par signaux. Pour faciliter l'expression, nous prenons VIF comme exemple, supposons que l'entrée provient de l'ensemble de données VIF et utilisons G pour représenter CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务. O Figure 2 L'architecture globale de TC-MOA

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Rappel à générer
. Premièrement, des fonctionnalités multi-sources sont obtenues pour un traitement ultérieur. La structure du réseau avant le jème TC-MoA est définie comme , et les fonctionnalités de génération de signaux extraites sont définies comme
. Nous concaténons
en tant que représentations de caractéristiques de paires de jetons multi-sources. Cela permet aux jetons de différentes sources d'échanger des informations au sein du réseau suivant. Cependant, le calcul direct de caractéristiques concaténées de grande dimension apportera un grand nombre de paramètres inutiles. Par conséquent, nous utilisons
pour effectuer une réduction de dimensionnalité des caractéristiques et obtenir les caractéristiques multi-sources traitées
, comme suit : CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务CVPR 2024 | Un modèle général de fusion dimages basé sur MoE, ajoutant 2,8 % de paramètres pour effectuer plusieurs tâches Ensuite, en fonction de la tâche à laquelle Φ appartient, nous sélectionnons un routeur spécifique à la tâche dans la banque de routeurs pour personnaliser le schéma de routage, c'est-à-dire quel adaptateur dans la banque d'adaptateurs doit être saisi pour chaque paire de jetons source. CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Enfin, nous effectuons une somme pondérée des sorties de l'adaptateur pour obtenir l'indice de fusion. Chaque routeur dispose de préférences de tâches pour personnaliser le mélange d'adaptateurs approprié, qui génère ensuite des indices à partir du mélange d'adaptateurs, calculés comme suit :

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Tip-Driven Fusion. Les indices adaptés aux tâches sont soumis à une régularisation mutuelle des informations (MIR), qui garantit la complémentarité des différentes sources. Les indices servent donc d’estimation de la proportion d’informations importantes dans chaque source. Grâce au produit scalaire de fonctionnalités et d'indices multi-sources, nous conservons les informations complémentaires tout en supprimant les informations redondantes. Ensuite, étant donné que la représentation des caractéristiques doit contenir des biais dépendants de la source (tels que des images visibles ou infrarouges), nous introduisons des paramètres apprenables indépendants de l'entrée pour chaque source, c'est-à-dire les codages de source. Une fois les caractéristiques modifiées par des indices et biaisés par la source, nous obtenons les caractéristiques sources raffinées CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务, puis obtenons les caractéristiques de fusion via la couche de fusion F. Le processus est le suivant :

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Enfin, nous obtenons une fonctionnalité de fusion via des conseils personnalisés en fonction des tâches. Pour encourager le modèle à extraire des informations importantes étape par étape, nous définissons les caractéristiques de sortie vers le prochain bloc Transformer comme suit (CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务 est un hyperparamètre) :

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Mutual Information Regular. Afin de garantir que le modèle conserve dynamiquement les informations complémentaires tout en éliminant les informations redondantes des fonctionnalités multi-sources, nous imposons des contraintes de régularisation aux invites. En supposant que la représentation des caractéristiques change de manière linéaire, nous définissons MIR comme suit :

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Résultats expérimentaux

Expériences qualitatives et quantitatives. Comme le montrent la figure 3-5 et le tableau 1-3, les comparaisons qualitatives et quantitatives sur trois tâches de fusion montrent que les performances de notre méthode surpassent les méthodes de fusion générales précédentes. Par rapport aux méthodes spécifiques à des tâches, notre méthode atteint également des performances de pointe sur toutes les tâches et même des avancées sur certaines tâches (VIF). La supériorité de la méthode proposée est prouvée.务 Figure 3 Ensemble de données de la tâche VIF LLVIP L'expérience comparative qualitative

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Figure 4 Ensemble de données de la tâche MEF MEFB L'expérience comparative qualitative

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

5 Expériences comparatives qualitatives sur les données de la tâche MFF ensemble

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

                                                                                                                                                                                    Tableau 1 Expériences comparatives quantitatives sur l'ensemble de données LLVIP de la tâche VIF务 Tableau 2 Expérience comparative quantitative de l'ensemble de données LLVIP de la tâche MEF

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务 Tableau 3 Ensemble de données LLVIP de la tâche MFF L'expérience comparative quantitative de l'ensemble de données LLVIP

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务 de la tâche de la figure 6 Contrôlabilité et généralisation à des tâches inconnues


Contrôleabilité et généralisation
.
Comme le montre la figure 6, en contrôlant les hyperparamètres α et β de l'invite de fusion, nous pouvons respectivement contrôler la force de sélection des caractéristiques du modèle pour les informations complémentaires de l'image source (niveau région) et la similarité entre l'image fusionnée et une certaine image source (niveau d'image). Nous pouvons fusionner les signaux grâce à une transformation linéaire, générant finalement une image fusionnée personnalisée. Pour les tâches connues, telles que la fusion multi-exposition, nous pouvons obtenir des résultats de fusion personnalisés qui correspondent le mieux à la perception humaine. Pour les tâches inconnues, nous pouvons moduler les paramètres de fusion les plus appropriés et généraliser le modèle aux tâches inconnues.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Quelles bibliothèques sont utilisées pour les opérations du numéro de point flottantes en Go? Quelles bibliothèques sont utilisées pour les opérations du numéro de point flottantes en Go? Apr 02, 2025 pm 02:06 PM

La bibliothèque utilisée pour le fonctionnement du numéro de point flottante dans le langage go présente comment s'assurer que la précision est ...

Gitee Pages STATIQUE Le déploiement du site Web a échoué: comment dépanner et résoudre les erreurs de fichier unique 404? Gitee Pages STATIQUE Le déploiement du site Web a échoué: comment dépanner et résoudre les erreurs de fichier unique 404? Apr 04, 2025 pm 11:54 PM

GiteEpages STATIQUE Le déploiement du site Web a échoué: 404 Dépannage des erreurs et résolution lors de l'utilisation de Gitee ...

Quelles bibliothèques de GO sont développées par de grandes entreprises ou fournies par des projets open source bien connus? Quelles bibliothèques de GO sont développées par de grandes entreprises ou fournies par des projets open source bien connus? Apr 02, 2025 pm 04:12 PM

Quelles bibliothèques de GO sont développées par de grandes entreprises ou des projets open source bien connus? Lors de la programmation en Go, les développeurs rencontrent souvent des besoins communs, ...

Comment exécuter le projet H5 Comment exécuter le projet H5 Apr 06, 2025 pm 12:21 PM

L'exécution du projet H5 nécessite les étapes suivantes: Installation des outils nécessaires tels que le serveur Web, Node.js, les outils de développement, etc. Créez un environnement de développement, créez des dossiers de projet, initialisez les projets et écrivez du code. Démarrez le serveur de développement et exécutez la commande à l'aide de la ligne de commande. Aperçu du projet dans votre navigateur et entrez l'URL du serveur de développement. Publier des projets, optimiser le code, déployer des projets et configurer la configuration du serveur Web.

Comment obtenir les données de la région d'expédition de la version à l'étranger? Quelles sont les ressources prêtes à l'emploi disponibles? Comment obtenir les données de la région d'expédition de la version à l'étranger? Quelles sont les ressources prêtes à l'emploi disponibles? Apr 01, 2025 am 08:15 AM

Description de la question: Comment obtenir les données de la région d'expédition de la version à l'étranger? Y a-t-il des ressources prêtes à l'emploi disponibles? Soyez précis dans le commerce électronique transfrontalier ou les entreprises mondialisées ...

Dessin graphique de sablier Python: comment éviter les erreurs variables non définies? Dessin graphique de sablier Python: comment éviter les erreurs variables non définies? Apr 01, 2025 pm 06:27 PM

Précision avec Python: Source de sablier Dessin graphique et vérification d'entrée Cet article résoudra le problème de définition variable rencontré par un novice Python dans le programme de dessin graphique de sablier. Code...

Comment résoudre le problème de conversion de type user_id lors de l'utilisation du flux redis pour implémenter les files d'attente de messages dans le langage Go? Comment résoudre le problème de conversion de type user_id lors de l'utilisation du flux redis pour implémenter les files d'attente de messages dans le langage Go? Apr 02, 2025 pm 04:54 PM

Le problème de l'utilisation de Redessstream pour implémenter les files d'attente de messages dans le langage GO consiste à utiliser le langage GO et redis ...

La production de pages H5 nécessite-t-elle une maintenance continue? La production de pages H5 nécessite-t-elle une maintenance continue? Apr 05, 2025 pm 11:27 PM

La page H5 doit être maintenue en continu, en raison de facteurs tels que les vulnérabilités du code, la compatibilité des navigateurs, l'optimisation des performances, les mises à jour de sécurité et les améliorations de l'expérience utilisateur. Des méthodes de maintenance efficaces comprennent l'établissement d'un système de test complet, à l'aide d'outils de contrôle de version, de surveiller régulièrement les performances de la page, de collecter les commentaires des utilisateurs et de formuler des plans de maintenance.

See all articles