Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.
- Papier-Link: https://arxiv.org/abs/2403.12494
- Code-Link: https://github.com/YangSun22/TC-MoA
- Papier-Titel: Aufgabenspezifische Mischung von Adaptern für General Image Fusion
融 Abbildung 1 Das Quellbild verschiedener Fusionsaufgaben zur dominanten Intensitätsänderung der Fusionsergebnisse.
Forschungshintergrund und Motivation Komplementäre Informationen mehrerer Quellbilder werden in einem einzigen Bild integriert. Diese Methode wird normalerweise verwendet, um wichtige Informationen aus Bildern zu extrahieren und die visuelle Qualität zu verbessern.
Derzeit umfasst die allgemeine Bildfusion hauptsächlich multimodale, mehrfach belichtete, multifokussierte Bildfusion usw. Fusionsaufgaben weisen unterschiedliche Fusionsmechanismen auf. Der Schwerpunkt der Multi-Exposure Image Fusion (MEF) liegt auf der Umwandlung von Bildsequenzen mit mehreren Belichtungsstufen in ein hochwertiges Vollbelichtungsbild. Jedes Quellbild liefert seine eigenen Beleuchtungs- und Strukturinformationen für das fusionierte Bild. Visible Infrarot Image Fusion (VIF) ist eine Art multimodale Bildfusion (MMF), die darauf abzielt, komplementäre Informationen aus Infrarot- und sichtbaren Modalitäten zu fusionieren, um robuste und informationsreiche fusionierte Bilder zu erzeugen. Infrarotbilder liefern mehr Intensitätsinformationen, während sichtbare Bilder mehr Textur- und Verlaufsinformationen liefern. Bei der Multifokus-Bildfusion (MFF) geht es darum, aus einer Reihe teilweise fokussierter Bilder ein vollständig fokussiertes Bild zu erzeugen. Jeder klare Bereich eines Multifokus-Fusionsbilds muss normalerweise nur aus einem Quellbild gelernt werden. Daher kann beobachtet werden, dass die MEF- und VIF-Aufgaben relativ gleichwertige Fusionen mehrerer Quellen sind, während MFF eine Aufgabe mit einem extremeren Multiquellenstatus ist und häufig eine polarisierte Auswahl für einen bestimmten Bereich des Bildes zeigt. Mit der rasanten Entwicklung der Deep-Learning-Technologie wurden in den letzten Jahren große Fortschritte im Bereich der Bildfusion erzielt. Die meisten vorhandenen Methoden konzentrieren sich jedoch nur auf ein einzelnes Bildfusionsszenario und verwenden normalerweise eine bestimmte Strategie B. für eine bestimmte Aufgabe. Das komplexe Netzwerk, das für die Aufgabe entwickelt wurde, oder die aufgabenspezifische Verlustfunktion verhindern, dass es direkt auf andere Aufgaben angewendet werden kann. In Anbetracht der Tatsache, dass die Essenz verschiedener Fusionsaufgaben gleich ist, nämlich die Integration wichtiger Informationen aus mehreren Quellbildern, versuchen einige kürzlich vorgeschlagene Methoden, ein einheitliches Modell zu verwenden, um mehrere Fusionsaufgaben zu bewältigen und eine universelle Bildfusion aufzubauen. Allerdings leiden diese Methoden entweder unter einer aufgabendominanten Verzerrung oder sie opfern die Individualität zugunsten der Multitask-Gemeinsamkeit, was zu einer suboptimalen Leistung führt. Dies motiviert uns, ein kompatibleres Fusionsparadigma zu erforschen, das adaptiv und dynamisch mit verschiedenen Fusionsszenarien kompatibel sein kann.
Um diese Herausforderung zu bewältigen, führen wir, inspiriert von den leistungsstarken Feature-Repräsentationsfunktionen des vorab trainierten Basismodells, das Basismodell als eingefrorenen Encoder ein, um komplementäre Features aus Bildern mit mehreren Quellen zu extrahieren. Im Gegensatz zu den meisten bestehenden Methoden stützen wir uns auf die Idee gemischter Experten (MoE) und betrachten jeden Experten als effizienten, fein abgestimmten Adapter, um eine adaptive visuelle Feature-Cue-Fusion basierend auf dem Basismodell durchzuführen. Aufgabenspezifische Routing-Netzwerke passen eine Mischung dieser Adapter an, um aufgabenspezifische Fusionshinweise für verschiedene Quellen zu generieren und so eine neue Task-Customized Hybrid Adapter (TC-MoA)-Architektur zu bilden. Darüber hinaus entwerfen wir eine gegenseitige Informationsregulierung, um die Fusionshinweise einzuschränken und so die Komplementarität zu verschiedenen Quellen sicherzustellen. Bemerkenswerterweise wiesen Fusionshinweise erhebliche Unterschiede in der Aufgabenverzerrung und in der Stärke der Modalitätsdominanz auf. Wie in Abbildung 1 dargestellt, weisen MFF-Hinweise größere Farbunterschiede auf als VIF und MEF, was darauf hindeutet, dass die Merkmalsauswahl in der Intensitätsverzerrung des dominanten Modus bipolarer ist. Unser Modell erkennt effektiv die Verzerrung der Fusionsstärke zwischen verschiedenen Fusionsaufgaben in einem einzigen Modell und ist daher mit einem breiteren Spektrum von Fusionsaufgaben kompatibel.
Umfangreiche Experimente haben unsere Überlegenheit bei der allgemeinen Bildfusion bestätigt, einschließlich multimodaler, mehrfach belichteter und multifokussierter Fusion. Noch wichtiger ist, dass unser TC-MoA kreative Steuerbarkeit und Generalisierung auch für unbekannte Fusionsaufgaben zeigt und unser Potenzial in einem breiteren Spektrum von Fusionsszenarien voll unter Beweis stellt.
Wir schlagen ein einheitliches allgemeines Bildfusionsmodell vor, das einen neuen aufgabenspezifischen Hybridadapter (TC-MoA) für die adaptive Bildfusion aus mehreren Quellen bereitstellt (nutzt die dynamische Aggregation). gültiger Informationen aus den jeweiligen Schemata). Wir schlagen eine Methode zur gegenseitigen Informationsregulierung für Adapter vor, die es unserem Modell ermöglicht, die dominante Intensität verschiedener Quellbilder genauer zu identifizieren. Nach unserem besten Wissen schlagen wir erstmals einen MoE-basierten flexiblen Adapter vor. Durch das Hinzufügen von nur 2,8 % der lernbaren Parameter kann unser Modell viele Fusionsaufgaben bewältigen. Umfangreiche Experimente demonstrieren die Vorteile unserer konkurrierenden Methoden und zeigen gleichzeitig eine bemerkenswerte Kontrollierbarkeit und Verallgemeinerung.
Wie in Abbildung 2 dargestellt, integriert das Netzwerk bei einem gegebenen Quellbildpaar komplementäre Informationen aus verschiedenen Quellen, um ein zusammengeführtes Bild zu erhalten. Wir geben das Quellbild in das ViT-Netzwerk ein und erhalten das Token des Quellbilds über die Patch-Codierungsschicht. ViT besteht aus einem Encoder zur Merkmalsextraktion und einem Decoder zur Bildrekonstruktion, die beide aus Transformer-Blöcken bestehen. Fügen Sie jeden Transformatorblock einen TC-MoA in den Encoder und Decoder ein. Das Netzwerk moduliert schrittweise das Ergebnis der Fusion durch diese TC-MoAs. Jedes TC-MoA besteht aus einer aufgabenspezifischen Router-Bank , einer Task-Sharing-Adapterbank und einer Hinweisfusionsschicht F. TC-MoA besteht aus zwei Hauptphasen: Cue-Generierung und Cue-gesteuerte Fusion. Zur Vereinfachung des Ausdrucks nehmen wir VIF als Beispiel, gehen davon aus, dass die Eingabe aus dem VIF-Datensatz stammt, und verwenden G zur Darstellung von . O Abbildung 2 Die Gesamtarchitektur von TC-MOA
Erinnerung zum Generieren
. Zunächst werden Multi-Source-Features für die anschließende Verarbeitung abgerufen. Die Netzwerkstruktur vor dem j-ten TC-MoA ist als definiert, und die extrahierten Cue-Generierungsfunktionen sind als
definiert. Wir verketten als Feature-Darstellungen von Token-Paaren aus mehreren Quellen. Dadurch können Token aus unterschiedlichen Quellen innerhalb des nachfolgenden Netzwerks Informationen austauschen. Die direkte Berechnung hochdimensionaler verketteter Features bringt jedoch eine große Anzahl unnötiger Parameter mit sich. Daher verwenden wir , um eine Reduzierung der Feature-Dimensionalität durchzuführen und die verarbeiteten Multi-Source-Features
wie folgt zu erhalten: Dann wählen wir entsprechend der Aufgabe, zu der Φ gehört, einen aufgabenspezifischen Router aus der Router-Bank aus um das Routing-Schema anzupassen, d. h., welcher Adapter in der Adapterbank für jedes Quell-Token-Paar eingegeben werden soll. Schließlich führen wir eine gewichtete Summe der Ausgänge des Adapters durch, um den Fusionshinweis zu erhalten. Jeder Router verfügt über Aufgabenpräferenzen zum Anpassen des entsprechenden Adaptermixes, der dann Hinweise aus dem Adaptermix generiert, die wie folgt berechnet werden:
Tip-Driven Fusion. Aufgabenspezifische Hinweise unterliegen der gegenseitigen Informationsregulierung (MIR), die die Komplementarität zu verschiedenen Quellen gewährleistet. Hinweise dienen daher als Schätzung des Anteils wichtiger Informationen in jeder Quelle. Durch das Skalarprodukt aus Merkmalen und Hinweisen aus mehreren Quellen behalten wir komplementäre Informationen bei und entfernen gleichzeitig redundante Informationen. Unter Berücksichtigung der Tatsache, dass die Merkmalsdarstellung quellenabhängige Verzerrungen (z. B. sichtbare oder Infrarotbilder) enthalten sollte, führen wir dann eingabeunabhängige lernbare Parameter für jede Quelle ein, d. h. Quellkodierungss. Nachdem die Features durch Hinweise und Quellenvoreingenommenheit modifiziert wurden, erhalten wir die verfeinerten Quellfeatures und erhalten dann die Fusionsfeatures über die Fusionsschicht F. Der Prozess ist wie folgt:
Schließlich erhalten wir ein Fusionsfeature durch aufgabenspezifische Hinweise. Um das Modell zu ermutigen, wichtige Informationen Schritt für Schritt zu extrahieren, definieren wir die an den nächsten Transformer-Block ausgegebenen Features wie folgt ( ist ein Hyperparameter):
Mutual Information Regular. Um sicherzustellen, dass das Modell komplementäre Informationen dynamisch behält und gleichzeitig redundante Informationen aus Multi-Source-Features verwirft, erlegen wir den Eingabeaufforderungen Regularisierungsbeschränkungen auf. Unter der Annahme, dass sich die Merkmalsdarstellung linear ändert, definieren wir MIR wie folgt:
Experimentelle ErgebnisseQualitative und quantitative Experimente. Wie in Abbildung 3-5 und Tabelle 1-3 dargestellt, zeigen qualitative und quantitative Vergleiche zu drei Fusionsaufgaben, dass die Leistung unserer Methode frühere allgemeine Fusionsmethoden übertrifft. Im Vergleich zu aufgabenspezifischen Methoden erreicht unsere Methode auch bei allen Aufgaben eine Spitzenleistung und führt bei einigen Aufgaben sogar (VIF). Die Überlegenheit der vorgeschlagenen Methode ist bewiesen.务 Abbildung 3 VIF-Aufgabe LLVIP-Datensatz Das qualitative Vergleichsexperiment
Abbildung 4 MEF-Aufgabe MEFB-Datensatz Das qualitative Vergleichsexperiment 5 Qualitative Vergleichsexperimente zur MFF-Aufgabe Daten eingestellt
务 Tabelle 2: Quantitatives Vergleichsexperiment mit dem LLVIP-Datensatz der MEF-Aufgabe Kontrollierbarkeit und Generalisierung auf unbekannte Aufgaben
Kontrollierbarkeit und Generalisierung. Wie in Abbildung 6 gezeigt, können wir durch Steuerung der Hyperparameter α und β der Fusionsaufforderung die Merkmalsauswahlstärke des Modells für die komplementären Informationen des Quellbilds (Regionsebene) bzw. die Ähnlichkeit zwischen dem fusionierten Bild und steuern ein bestimmtes Quellbild (Bildebene). Wir können die Hinweise durch lineare Transformation zusammenführen und letztendlich ein individuelles zusammengeführtes Bild erzeugen. Für bekannte Aufgaben, wie zum Beispiel die Mehrfachbelichtungsfusion, können wir maßgeschneiderte Fusionsergebnisse erzielen, die der menschlichen Wahrnehmung am besten entsprechen. Für unbekannte Aufgaben können wir die am besten geeigneten Fusionsparameter modulieren und das Modell auf unbekannte Aufgaben verallgemeinern. Das obige ist der detaillierte Inhalt vonCVPR 2024 |. Ein allgemeines Bildfusionsmodell basierend auf MoE, das 2,8 % Parameter hinzufügt, um mehrere Aufgaben zu erledigen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!