首页 科技周边 人工智能 CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

Apr 24, 2024 pm 02:28 PM
git 工程 图像融合

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

  • 论文链接:https://arxiv.org/abs/2403.12494
  • 代码链接:https://github.com/YangSun22/TC-MoA
  • 论文题目:Task-Customized Mixture of Adapters for General Image Fusion

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

                               图 1 不同融合任务的源图像对融合结果的主导强度变化

研究背景与动机

图像融合的目的是将同一场景中不同传感器捕获的多源图像的互补信息整合到单个图像上。这种方式通常被用于提取CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务重要信息和提高视觉质量。

目前,一般的图像融合主要包括多模态、多曝光、多焦图像融合等。融合任务表现出不同的融合机制。多曝光图像融合(MEF)的重点是将具有多个曝光程度的图像序列转换成一个高质量的全曝光图像。每个源图像为融合的图像提供自己的光照和结构信息。可见红外图像融合(VIF)是一种多模态图像融合(MMF),旨在融合红外和可见模态的互补信息,产生鲁棒且信息丰富的融合图像。红外图像提供更多的强度信息,而可见图像提供更多的纹理和梯度信息。多聚焦图像融合(MFF)的目的是从一系列部分聚焦的图像中生成一个全聚焦的图像。多聚焦融合图像的每个清晰区域通常只需要学习一个源图像。因此,可以观察到,MEF 和 VIF 任务是多源相对平等的融合,而 MFF 是多源地位较为极端的任务,对图像的某一区域而言,往往表现出极化的选择。

随着深度学习技术的快速发展,近年来图像融合领域取得了很大的进展,而现有的方法大多只关注单一图像融合场景,通常为单一任务采用特定策略,如为某任务设计的复杂网络或任务特定的损失函数,导致无法直接应用在其他任务上。考虑到不同融合任务的本质相同,即整合来自多个源图像的重要信息,最近提出的一些方法,试图使用统一的模型处理多种融合任务,构建通用的图像融合。然而,这些方法要么有主导任务偏差,要么为了多任务共性而牺牲个性,导致次优的性能。这促使我们探索一个更兼容的融合范式,它可以自适应地动态地兼容不同的融合场景。

为了处理这一挑战,受到预训练基座模型强大的特征表示能力的启发,我们引入了基座模型作为一个冻结的编码器来提取多源图像的互补特征。与大多数现有方法不同的是,我们借鉴了混合专家(MoE)的思想,将每个专家作为一个高效的微调适配器,基于基座模型执行自适应视觉特征提示融合。任务特定的路由网络定制这些适配器的混合,为不同的源生成任务特定的融合提示,形成一种新的任务定制混合适配器(TC-MoA)架构。另外,我们设计了互信息正则化来约束融合提示,从而保证了对不同来源的互补性。值得注意的是,融合提示具有显著的任务偏差和模态主导强度差异。如图 1 所示,MFF 的提示比 VIF 和 MEF 的色差更大,说明特征选择在优势模态的强度偏差上具有更多的双极性。我们的模型有效地感知了单一模型中不同融合任务之间的融合强度偏差,因此与更广泛的融合任务相兼容。

大量的实验验证了我们在通用图像融合方面的优越性,包括多模态、多曝光和多焦点融合。更重要的是,我们的 TC-MoA 甚至对未知的融合任务显示出了创造性的可控性和泛化性,充分展示了我们在更广泛的融合场景中的潜力。

主要贡献

  • 我们提出了一个统一的通用图像融合模型,提供了一种新的任务定制混合适配器(TC-MoA)用于自适应多源图像融合(受益于动态聚合各自模式的有效信息)。
  • 我们为适配器提出了一种互信息正则化方法,这使得我们的模型能够更准确地识别不同源图像的主导强度。
  • 据我们所知,我们首次提出了一种基于 MoE 的灵活适配器。通过只添加 2.8% 的可学习参数,我们的模型可以处理许多融合任务。大量的实验证明了我们的竞争方法的优势,同时显示了显著的可控性和泛化性。

核心方法

如图 2 所示,给定一对源图像CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务,网络整合来自不同源的互补信息,获得融合图像CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务。我们将源图像输入 ViT 网络,并通过 patch 编码层获得源图像的 Token。ViT 由一个用于特征提取的编码器和一个用于图像重建的解码器组成,这两者都是由 Transformer 块组成的。

在编码器和解码器中,每CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务个 Transformer 块插入一个 TC-MoA。网络通过这些 TC-MoA 逐步调制融合的结果。每个 TC-MoA 由一个特定于任务的路由器银行CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务,一个任务共享适配器银行CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务和一个提示融合层F组成。TC-MoA 包括两个主要阶段:提示生成和提示驱动的融合。为了便于表达,我们以 VIF 为例,假设输入来自 VIF 数据集,并使用G来表示CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

                               图 2  TC-MoA 的总体架构

提示生成。首先,获得后续处理的多源特征。将第 j 个 TC-MoA 之前的网络结构定义为CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务,并提取提示生成特征定义为CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务。我们将CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务作为多源 Token 对的特征表示拼接起来。这允许来自不同来源的 Token 在后续的网络中交换信息。然而,直接计算高维的拼接特征会带来大量不必要的参数。因此,我们使用CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务进行特征降维,得到处理后的多源特征CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务,如下:

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

然后,根据 Φ 所属的任务,我们从路由器银行中选择一个任务特定的路由器来定制路由方案,即,每对源 Token 应该输入适配器银行中的哪个适配器。

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

最后,我们对适配器的输出进行加权求和,以获得融合提示。每个路由器都有任务偏好来定制合适的适配器混合,然后通过适配器混合生成提示,计算方法如下:

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

提示驱动的融合。任务定制的提示受到互信息正则化(MIR)的约束,这保证了对不同源的互补性。因此,提示可以作为对每个来源中重要信息的比例的估计。通过多源特征和提示的点乘,我们在去除冗余信息的同时保留了互补信息。然后,考虑到特征表示应该包含源相关的偏置(如可见或红外图像),我们为每个源引入输入无关的可学习参数,即源编码 s。特征在经过提示修饰和源偏置,我们得到细化的源特征CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务,然后经过融合层 F 获得融合特征,过程如下:

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

最终,我们通过任务定制的提示获得了一个融合特征。为了鼓励模型逐步地提取重要信息,我们对输出到下一个 Transformer 块的特征定义如下(CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务是一个超参数):

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

互信息正则。为了保证模型在丢弃多源特征冗余信息的同时,动态地保留互补信息,我们对提示符施加了正则化约束。假设特征表示呈线性变化,我们定义 MIR 如下:

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

实验效果

定性和定量实验。如图 3-5 和表 1-3 所示,在三个融合任务上的定性和定量对比表明我们的方法性能超越以往的通用融合方法。与特定任务的方法相比,我们的方法在所有任务上也达到了先进水平,甚至在部分任务(VIF)上达到了领先水平。证明了所提方法的优越性。

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

                               图 3 VIF 任务 LLVIP 数据集上的定性比较实验 

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

                                图 4 MEF 任务 MEFB 数据集上的定性比较实验 

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

                                   图 5 MFF 任务数据集上的定性比较实验

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

                               表 1 VIF 任务 LLVIP 数据集上的定量比较实验 

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

                               表 2 MEF 任务 LLVIP 数据集上的定量比较实验 

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

                                 表 3 MFF 任务 LLVIP 数据集上的定量比较实验

CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务

                             图 6 域内任务的可控性和未知任务的泛化性

可控性和泛化性如图 6 所示,通过控制融合提示的超参数 α 和 β,我们可以分别控制模型对源图像互补信息的特征选择强度(区域级)和融合图像与某个源图像的相似度(图像级)。我们可以通过线性变换融合提示,最终实现生成定制的融合图像。对于已知的任务,如多曝光融合,我们可以得到定制化的最符合人类感知的融合结果。对于未知任务,我们可以调制出最合适的融合参数,将模型泛化到未知任务。

以上是CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Go语言中用于浮点数运算的库有哪些? Go语言中用于浮点数运算的库有哪些? Apr 02, 2025 pm 02:06 PM

Go语言中用于浮点数运算的库介绍在Go语言(也称为Golang)中,进行浮点数的加减乘除运算时,如何确保精度是�...

h5项目怎么运行 h5项目怎么运行 Apr 06, 2025 pm 12:21 PM

运行 H5 项目需要以下步骤:安装 Web 服务器、Node.js、开发工具等必要工具。搭建开发环境,创建项目文件夹、初始化项目、编写代码。启动开发服务器,使用命令行运行命令。在浏览器中预览项目,输入开发服务器 URL。发布项目,优化代码、部署项目、设置 Web 服务器配置。

Gitee Pages静态网站部署失败:单个文件404错误如何排查和解决? Gitee Pages静态网站部署失败:单个文件404错误如何排查和解决? Apr 04, 2025 pm 11:54 PM

GiteePages静态网站部署失败:404错误排查与解决在使用Gitee...

Go语言中哪些库是由大公司开发或知名的开源项目提供的? Go语言中哪些库是由大公司开发或知名的开源项目提供的? Apr 02, 2025 pm 04:12 PM

Go语言中哪些库是大公司开发或知名开源项目?在使用Go语言进行编程时,开发者常常会遇到一些常见的需求,�...

Beego ORM中如何指定模型关联的数据库? Beego ORM中如何指定模型关联的数据库? Apr 02, 2025 pm 03:54 PM

在BeegoORM框架下,如何指定模型关联的数据库?许多Beego项目需要同时操作多个数据库。当使用Beego...

H5页面制作是否需要持续维护 H5页面制作是否需要持续维护 Apr 05, 2025 pm 11:27 PM

H5页面需要持续维护,这是因为代码漏洞、浏览器兼容性、性能优化、安全更新和用户体验提升等因素。有效维护的方法包括建立完善的测试体系、使用版本控制工具、定期监控页面性能、收集用户反馈和制定维护计划。

在Go语言中使用Redis Stream实现消息队列时,如何解决user_id类型转换问题? 在Go语言中使用Redis Stream实现消息队列时,如何解决user_id类型转换问题? Apr 02, 2025 pm 04:54 PM

Go语言中使用RedisStream实现消息队列时类型转换问题在使用Go语言与Redis...

Typecho路由匹配冲突:为什么我的/test/tag/你好/10086匹配到了TestTagIndex而不是TestTagPage? Typecho路由匹配冲突:为什么我的/test/tag/你好/10086匹配到了TestTagIndex而不是TestTagPage? Apr 01, 2025 am 09:03 AM

Typecho路由匹配规则解析与问题排查本文将针对Typecho插件路由注册与实际匹配结果不一致的问题进行分析和解答�...

See all articles