AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。 論文連結:https://arxiv.org/abs/2403.12494 #程式碼連結:https://github.com/YangSun22/TC-MoA 論文題目:Task-Customized Mixture of Adapters for General Image Fusion # 圖1 不同融合任務的源圖像對融合結果的主導強度變化研究背景與動機影像融合的目的是將同一場景中不同感測器捕獲的多源影像的互補資訊整合到單一影像上。這種方式通常被用於提取圖片重要資訊和提高視覺品質。 目前,一般的影像融合主要包括多模態、多重曝光、多焦點影像融合等。融合任務表現出不同的融合機制。多曝光影像融合(MEF)的重點是將具有多個曝光程度的影像序列轉換成一個高品質的全曝光影像。每個來源影像為融合的影像提供自己的光照和結構資訊。可見紅外線影像融合(VIF)是一種多模態影像融合(MMF),旨在融合紅外線和可見模態的互補訊息,產生穩健且資訊豐富的融合影像。紅外線圖像提供更多的強度信息,而可見圖像提供更多的紋理和梯度信息。多聚焦影像融合(MFF)的目的是從一系列部分聚焦的影像中產生一個全聚焦的影像。多聚焦融合影像的每個清晰區域通常只需要學習一個來源影像。因此,可以觀察到,MEF 和 VIF 任務是多源相對平等的融合,而 MFF 是多源地位較為極端的任務,對影像的某一區域而言,往往表現出極化的選擇。 隨著深度學習技術的快速發展,近年來影像融合領域取得了很大的進展,而現有的方法大多只關注單一影像融合場景,通常為單一任務採取特定策略,如為某任務設計的複雜網路或任務特定的損失函數,導致無法直接應用在其他任務上。考慮到不同融合任務的本質相同,即整合來自多個來源影像的重要訊息,最近提出的一些方法,試圖使用統一的模型處理多種融合任務,建構通用的影像融合。然而,這些方法要么有主導任務偏差,要么為了多任務共性而犧牲個性,導致次優的表現。這促使我們探索一個更相容的融合範式,它可以自適應地動態地相容於不同的融合場景。 為了處理這個挑戰,受到預訓練基座模型強大的特徵表示能力的啟發,我們引入了基座模型作為一個凍結的編碼器來提取多來源影像的互補特徵。與大多數現有方法不同的是,我們借鑒了混合專家(MoE)的思想,將每個專家作為一個高效的微調適配器,基於基座模型執行自適應視覺特徵提示融合。任務特定的路由網路自訂這些適配器的混合,為不同的來源產生任務特定的融合提示,形成一種新的任務自訂混合適配器(TC-MoA)架構。另外,我們設計了互資訊正規化來約束融合提示,從而保證了對不同來源的互補性。值得注意的是,融合提示具有顯著的任務偏差和模態主導強度差異。如圖 1 所示,MFF 的提示比 VIF 和 MEF 的色差更大,說明特徵選擇在優勢模態的強度偏差上具有更多的雙極性。我們的模型有效地感知了單一模型中不同融合任務之間的融合強度偏差,因此與更廣泛的融合任務相容。 大量的實驗驗證了我們在通用影像融合方面的優越性,包括多模態、多曝光和多焦點融合。更重要的是,我們的 TC-MoA 甚至對未知的融合任務顯示出了創造性的可控性和泛化性,充分展示了我們在更廣泛的融合場景中的潛力。 主要貢獻 #我們提出了一個統一的通用影像融合模型,提供了一種新的任務定制混合適配器(TC-MoA)用於自適應多源影像融合(受益於動態聚合各自模式的有效資訊)。 我們為適配器提出了一種互資訊正則化方法,這使得我們的模型能夠更準確地識別不同來源影像的主導強度。 據我們所知,我們首次提出了一個基於 MoE 的靈活適配器。透過只添加 2.8% 的可學習參數,我們的模型可以處理許多融合任務。大量的實驗證明了我們的競爭方法的優勢,同時顯示了顯著的可控性和泛化性。 #核心方法#如圖2 所示,給定一對來源影像,網路整合來自不同來源的互補訊息,獲得融合影像。我們將來源影像輸入 ViT 網絡,並透過 patch 編碼層獲得來源影像的 Token。 ViT 由一個用於特徵提取的編碼器和一個用於影像重建的解碼器組成,這兩者都是由 Transformer 區塊組成的。 在編碼器和解碼器中,每個個 Transformer 區塊插入一個 TC-MoA。網路透過這些 TC-MoA 逐步調製融合的結果。每個 TC-MoA 由一個特定於任務的路由器銀行,一個任務共享適配器銀行和一個提示融合層F組成。 TC-MoA 包括兩個主要階段:提示產生和提示驅動的融合。為了方便表達,我們以 VIF 為例,假設輸入來自 VIF 資料集,並使用G來表示。 圖2中使用提示產生。首先,獲得後續處理的多源特徵。將第 j 個 TC-MoA 之前的網路結構定義為,並擷取提示產生特徵定義為。我們將作為多源 Token 對的特徵表示拼接起來。這允許來自不同來源的 Token 在後續的網路中交換資訊。然而,直接計算高維的拼接特徵會帶來大量不必要的參數。因此,我們使用進行特徵降維,得到處理後的多源特徵,如下:然後,根據Φ 所屬的任務,我們從路由器銀行中選擇一個任務特定的路由器來自訂路由方案,即,每對來源Token 應該輸入適配器銀行中的哪個適配器。 最後,我們對適配器的輸出進行加權求和,以獲得融合提示。每個路由器都有任務偏好來定制合適的適配器混合,然後透過適配器混合生成提示,計算方法如下: 提示驅動的融合 。任務定制的提示受到互資訊正則化(MIR)的約束,這保證了對不同來源的互補性。因此,提示可以作為每個來源中重要資訊的比例的估計。透過多源特徵和提示的點乘,我們在去除冗餘資訊的同時保留了互補資訊。然後,考慮到特徵表示應該包含源相關的偏壓(如可見或紅外線圖像),我們為每個源引入輸入無關的可學習參數,即源編碼 s。特徵在經過提示修飾和源偏置,我們得到細化的源特徵,然後經過融合層F 獲得融合特徵,過程如下: 最終,我們透過任務定制的提示獲得了一個融合特徵。為了鼓勵模型逐步地提取重要訊息,我們對輸出到下一個Transformer 區塊的特徵定義如下(是一個超參數): ##互資訊正則。為了確保模型在丟棄多源特徵冗餘資訊的同時,動態地保留互補訊息,我們對提示符施加了正則化約束。假設特徵表示呈線性變化,我們定義MIR 如下: #實驗效果 定性和定量實驗。 如圖 3-5 和表 1-3 所示,在三個融合任務上的定性和定量對比表明我們的方法性能超越以往的通用融合方法。與特定任務的方法相比,我們的方法在所有任務上也達到了先進水平,甚至在部分任務(VIF)上達到了領先水平。證明了所提方法的優越性。 圖3 VIF 任務LLVIP 資料集上的定性比較實驗中的定性比較實驗## 圖4 MEF 任務MEFB 資料中為定性比較中 圖5 MFF 任務資料集上的質性比較實驗 ## ## 表中2 MEF 任務LLVIP 資料集上的定量比較實驗## 表3 MFF 任務LLVIP 資料集上的量化比較實驗 化性 #可控制性和泛化性。 如圖6 所示,透過控制融合提示的超參數α 和β,我們可以分別控制模型對來源影像互補資訊的特徵選擇強度(區域層級)和融合影像與某個來源影像的相似度(影像級)。我們可以透過線性變換融合提示,最終實現產生客製化的融合影像。對於已知的任務,如多曝光融合,我們可以得到客製化的最符合人類感知的融合結果。對於未知任務,我們可以調變出最適合的融合參數,將模型泛化到未知任務。