基于Transformer的高效单阶段短时RGB-T单目标跟踪方法-人工智能-PHP中文网

引言

方法

实验结果

总结

作者信息

首页

科技周边

人工智能

基于Transformer的高效单阶段短时RGB-T单目标跟踪方法

PHPz

Apr 23, 2024 am 08:01 AM

git 理论

引言

如图1所示，现有的三阶段RGB-T单目标跟踪网络通常采用两个独立的特征提取分支，分别负责提取两个模态的特征。然而，相互独立的特征提取分支会导致两个模态在特征提取阶段存在缺乏有效的信息交互。因此，一旦网络完成离线训练，其只能从每个模态图像中提取固定的特征，无法根据实际的模态状态动态调整，以提取更具针对性的动态特征。这一局限性约束了网络对多样的目标双模态外观，以及模态外观之间动态对应关系的适应能力。如图2所示，这种特征提取方式并不适合RGB-T单目标跟踪的实际应用场景，特别是在复杂环境下，因为被跟踪目标的任意性会导致的目标双模态外观多样，并且两个模态之间的动态关系也会随着跟踪环境的变化而变化。三阶段融合跟踪无法很好地适应这种情况，从而导致其有明显的速度瓶颈。

除了基于Transformer的RGB-T单目标跟踪网络都是采用直接相加或级联的方式，将两个模态搜索区域的特征组合在一起，输入预测头，用于输出最终的预测结果。然而，当前RGB-T单目标跟踪数据集提供的视频图像并不是完全对齐的，而且也不是每个模态搜索区域都可以提供有效信息，例如黑夜和热交叉跟踪场景下，RGB模态搜索区域和红外外搜索区域将无法提供有效的目标外观信息，存在大量的背景噪音。因此，直接通过按元素相加或级联的方式融合特征，没有考虑到不同搜索区域融合特征的问题。为了解决这个问题，本文提出了一种新的方法，称为融合特征选择模块（FFSM）。FFSM模块主要用于选择具有有效信息的目标外观的搜索区域特征。具体来说，FFSM模块首先通过注意力机制学习每个搜索区域特征的权重。然后，根据这些权重对搜索区域特征进行加权求和，得到最终的融合特征。这种机制可以有效地过滤掉无效的背景噪音，并提取出具有较高重要性的目标外观信息，从而改善了RGB-T单目标跟踪性能。为了验证FFSM模块的有效性，我们在大量的背景噪音存在的情况下进行了实验。实验结果表明，与直接按元素相加或级联的方式相比，使用FFSM模块的RGB-T单目标跟踪网络在目标跟踪中取得了更好的性能。在黑夜和热交叉跟踪场景下，FFSM模块能够准确地选择有效的目标外观信息，提高了目标跟踪的准确性和鲁棒性。总之，FFSM模块的引入有效地解决了直接融合特征的问题，提高了RGB-T单目标跟踪网络的性能。该方法可以广泛应用于大量背景噪音存在

本文介绍了一种基于Transformer的高效单阶段RGB-T单目标跟踪网络USTrack。其核心是通过联合特征提取、融合和关联建模方法，将三阶段融合跟踪方法的三个功能部分直接统一到一个ViT主干网络中同时执行，从而实现在模态交互下直接提取目标模板和搜索区域的融合特征，并构建两个融合特征之间的关联建模，从而大大提升了跟踪速度和精度。此外，USTrack还设计了一个基于模态可靠性的特征选择机制，该机制通过直接抑制无效模态的产生，可以减少无效模态的干扰，从而减少噪声信息对最终跟踪结果的影响。最终，USTrack创造了当前RGB-T单目标跟踪中最快的速度84.2FPS，并通过两个模态图像中目标的微小位置偏差以及减轻无效模态信息对跟踪结果的影响，大大减少了噪声信息对最终预测结果的影响。

本文的贡献如下：

当前三阶段融合跟踪网络在模态特征提取阶段存在缺乏模态交互的问题。本章提出联合特征提取 & 融合 & 关联建模方法。该方法可以在模态的交互下直接提取目标模板和搜索区域的融合特征，并同时执行两个融合特征之间的关联建模操作。首次为短时RGB-T单目标跟踪网络的设计提供了一种高效且简洁的单阶段融合跟踪范式。

不改变原文意思，调整句子结构，“（2）首次提出基于模态可靠性的特征选择机制，该机制可以根据实际跟踪环境来评估不同模态图像的可靠性，并根据可靠性来丢弃无效模态生成的融合特征，减少噪音信息对最终预测结果的影响，从而进一步提高跟踪性能。”

本文介绍了在三个主流 RGB-T 单目标跟踪基准数据集上的大量实验，表明本文的方法在实现了新的 SoTA 性能的同时，也创造了高达 84.2FPS 的最快跟踪速度。特别是在 VTUAV 短时跟踪器数据集和长时跟踪数据集上，USTrack 在 MPR/MSR 指标上比现有性能最好的方法提高了 11.1%/11.7% 和 11.3%/9.7%。

方法

正如图 3 所示，USTrack 的总体架构由三部分组成：双嵌入层、ViT 主干网和基于模态可靠性的特征选择机制。双嵌入层由两个独立的嵌入层组成。这是考虑到注意力机制是基于相似度去获取全局信息的，并不同模态数据的内在性能，可能会导致两个模态对同一模式有不同的特征表示形式，如果直接通过注意力对模态信息进行融合，这种异质性可能会限制网络对模态状态共享信息的建模能力，从而影响后续的特征融合过程。因此，USTrack 使用两个可学习的嵌入层将不同模态对应的输入映射到一个有利于融合的空间，在一定程度上对两个模态进行模式对齐，降低模态内在性对特征融合的影响。然后，将双嵌入层的所有输出联合作为 ViT 主干网的输入，通过注意力层直接通过注意力对模态信息进行融合，特征融合以及目标模板融合，统一 RGB-T 跟踪的三个功能阶段，为 RGB-T 跟踪提供一个高效的单阶段跟踪范式。

基于模式可靠性的特征选择机制是一个预测头和两个可靠性评估模块。它允许两个预测头输出不同的结果，并根据模式可靠性的得分，帮助网络选择更适合当前跟踪场景的模式所对应的搜索区域。特征选择机制可用于最终的预测，从而减少无效模式产生的噪声信息对最终预测结果的影响。

实验结果

USTrack选择GTOT、RGB234以及VTUAV数据集作为测试基准，测试结果如图4所示。我们还以VTUAV为基准，对USTrack在不同挑战场景下的性能进行分析。如图5所示，本文筛选了性能提升最为明显的6个挑战属性。分别为：形变（DEF）、尺度变化（SV）、完全遮挡（FO）、部分遮挡（PO）、热交叉（TC）以及极端光照（EI）。具体来说，形变（DEF）和尺度变化（SV）挑战属性可以有效地展示了目标在跟踪过程中不同外观的差异。完全遮挡（FO）、部分遮挡（PO）、热交叉（TC）和极端光照（EI）挑战属性可以导致相应模态状态的外观发生变化或消失，有效地展示了目标在不同挑战场景中的动态关系。USTrack 在具有这些挑战属性的跟踪场景下取得了最显著的性能提升，可以评估联合特征提取 & 融合 & 关联建模方法可有效缓解三阶段融合跟踪范式中模态特征在提取阶段交互不足的问题，能够更好地适应目标在跟踪过程中不同外观和模态之间的动态关系。

如图 6和所示，为了验证基于模态可靠性的特征选择机制的有效性，我们在 RGBT234 基准数据集上，展开了带有特征选择机制的双预测头结构与几种常见预测头结构的对比实验，并给出了模态可靠性与实际跟踪场景良好对应关系的可视化的结果。

总结

本章提出了一个基于 Transformer 的高效单阶段短时 RGB-T 单目标跟踪网USTrack。USTrack 的核心是提出联合特征提取 & 融合 & 关联建模方法，以解决传统三阶段融合跟踪网络在特征提取阶段缺乏模态交互的问题。从而增强跟踪网络了对多样的目标双模态外观和模态外观之间动态对应关系的适应能力。在此基础上，进一步提出了基于模态可靠性的特征选择机制。该机制通过直接摒弃无效模态产生的融合特征，来减少了噪声信息对最终预测结果的影响，从而获得更好的跟踪性能。USTrack 在三个主流数据集上实现了 SoTA 性能，并以 84.2 FPS 的速度创造了最快 RGB-T 跟踪推理速度的新记录。值得注意的是，在目前规模最大的 RGB-T 单目标跟踪基准数据集 VTUAV 上，该方法比现有 SoTA 方法在评估指标 MPR/MSR 上分别增加了 11.1%/11.7% 和 11.3%/9.7%，取得了较大的性能突破，为该基准数据集增添了一个新的功能强大的基线方法。

作者信息

1. 夏坚强

军事科学院国防科技创新研究院硕士研究生。研究兴趣包括视觉图像处理、目标检测、单目标跟踪等。第一作者发表CCF A类会议一篇，获2022年“华为杯”第四届中国研究生人工智能创新大赛华为专项一等奖。

2. 赵健

赵健，中国电信人工智能研究院多媒体认知学习实验室（EVOL Lab）负责人、青年科学家，西北工业大学光电与智能研究院研究员，博士毕业于新加坡国立大学，研究兴趣包括多媒体分析、临地安防、具身智能。

围绕无约束视觉感知理解共发表CCF-A类论文32篇，以第一/通讯作者在T-PAMI、CVPR等国际权威期刊和会议上发表论文31篇，含一作T-PAMI×2（IF: 24.314）、IJCV×3（IF: 13.369），第一发明人授权国家发明专利5项。相关技术成果在百度、蚂蚁金服、奇虎360等6个科技行业领军企业得到应用，产生了显著效益。曾入选中国科协及北京市科协“青年人才托举工程”，主持国自然青年科学基金等项目6项。曾获吴文俊人工智能优秀青年奖（2023）、吴文俊人工智能自然科学奖一等奖（2/5，2022）、新加坡模式识别与机器智能协会（PREMIA）Lee Hwee Kuan奖、ACM Multimedia唯一最佳学生论文奖（一作，1/208，CCF-A类会议，2018），7次在国际重要科技赛事中夺冠。

担任北京图象图形学学会理事，国际知名期刊《Artificial Intelligence Advances》、《IET Computer Vision》编委，《Pattern Recognition Letters》、《Electronics》特刊客座编辑，VALSE资深领域主席，ACM Multimedia 2021分论坛主席，CICAI 2022/2023领域主席，CCBR 2024论坛主席，中国人工智能学会/中国图象图形学学会高级会员，“挑战杯”大学生科技作品竞赛评委，中国人工智能大赛专家委委员等。

主页：https://zhaoj9014.github.io

论文截图

论文链接

https://arxiv.org/abs/2308.13764

代码链接

https://github.com/xiajianqiang

以上是基于Transformer的高效单阶段短时RGB-T单目标跟踪方法的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7526

CakePHP 教程

1378

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

h5项目怎么运行 Apr 06, 2025 pm 12:21 PM

运行 H5 项目需要以下步骤：安装 Web 服务器、Node.js、开发工具等必要工具。搭建开发环境，创建项目文件夹、初始化项目、编写代码。启动开发服务器，使用命令行运行命令。在浏览器中预览项目，输入开发服务器 URL。发布项目，优化代码、部署项目、设置 Web 服务器配置。

Bootstrap修改后如何查看结果 Apr 07, 2025 am 10:03 AM

查看修改后 Bootstrap 结果的步骤：直接在浏览器中打开 HTML 文件，确保 Bootstrap 文件已正确引用。清除浏览器缓存（Ctrl Shift R）。若使用 CDN，可直接在开发者工具中修改 CSS 以实时查看效果。若修改 Bootstrap 源码，下载并替换本地文件，或使用构建工具（如 Webpack）重新运行构建命令。

vue分页怎么用 Apr 08, 2025 am 06:45 AM

分页是一种将大数据集拆分为小页面的技术，提高性能和用户体验。在 Vue 中，可以使用以下内置方法进行分页：计算总页数：totalPages()遍历页码：v-for 指令设置当前页：currentPage获取当前页数据：currentPageData()

使用 Prometheus MySQL Exporter 监控 MySQL 和 MariaDB Droplet Apr 08, 2025 pm 02:42 PM

有效监控 MySQL 和 MariaDB 数据库对于保持最佳性能、识别潜在瓶颈以及确保整体系统可靠性至关重要。 Prometheus MySQL Exporter 是一款强大的工具，可提供对数据库指标的详细洞察，这对于主动管理和故障排除至关重要。

HadiDB：Python 中的轻量级、可水平扩展的数据库 Apr 08, 2025 pm 06:12 PM

HadiDB：轻量级、高水平可扩展的Python数据库HadiDB(hadidb)是一个用Python编写的轻量级数据库，具备高度水平的可扩展性。安装HadiDB使用pip安装：pipinstallhadidb用户管理创建用户：createuser()方法创建一个新用户。authentication()方法验证用户身份。fromhadidb.operationimportuseruser_obj=user("admin","admin")user_obj.

如何查看Bootstrap的JavaScript行为 Apr 07, 2025 am 10:33 AM

Bootstrap 的 JavaScript 部分提供交互组件，赋予静态页面活力。通过查看开源代码，可以理解其工作原理：事件绑定触发 DOM 操作和样式变化。基本用法包括引入 JavaScript 文件和使用 API，高级用法涉及自定义事件和扩展功能。常见问题包括版本冲突和 CSS 样式冲突，可通过仔细检查代码解决。性能优化技巧包括按需加载和代码压缩。掌握 Bootstrap JavaScript 的关键在于理解其设计理念、结合实践应用、利用开发者工具调试和探索。

git和github相同吗？ Apr 08, 2025 am 12:13 AM

Git和GitHub不是同一回事。Git是版本控制系统，GitHub是基于Git的代码托管平台。Git用于管理代码版本，GitHub提供在线协作环境。

bootstrap框架怎么搭 Apr 07, 2025 pm 02:54 PM

Bootstrap框架搭建指南：下载Bootstrap并将其链接到您的项目中。创建一个HTML文件以添加必要的元素。使用Bootstrap网格系统创建响应式布局。添加Bootstrap组件，例如按钮和表单。自行决定是否自定义Bootstrap，并在如有必要时编译样式表。使用版本控制系统跟踪您的代码。

See all articles

基于Transformer的高效单阶段短时RGB-T单目标跟踪方法

引言

方法

实验结果

总结

作者信息

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题