図 1 に示すように、既存の 3 段階の RGB-T 単一ターゲット追跡ネットワークは通常、2 つの独立した特徴抽出ブランチを使用し、それぞれが 2 つのモダリティの特徴を抽出する役割を果たします。ただし、相互に独立した特徴抽出ブランチがあると、特徴抽出段階で 2 つのモダリティ間の効果的な情報相互作用が欠如します。したがって、ネットワークがオフライン トレーニングを完了すると、各モーダル画像から固定特徴を抽出することしかできず、実際のモーダル状態に従って動的に調整して、よりターゲットを絞った動的特徴を抽出することはできません。この制限により、多様なターゲットのバイモーダルな外観とモーダルな外観間の動的な対応に適応するネットワークの能力が制限されます。図 2 に示すように、この特徴抽出方法は、特に複雑な環境における RGB-T 単一ターゲット追跡の実際のアプリケーション シナリオには適していません。これは、追跡されるターゲットの恣意性により、ターゲットの多様な二峰性の外観が生じ、動的特性が変化するためです。追跡環境が変化すると、2 つのモダリティ間の関係も変化します。 3 段階のフュージョン トラッキングはこの状況にうまく適応できず、明らかな速度のボトルネックが発生します。
Transformer に基づく RGB-T 単一ターゲット追跡ネットワークを除き、直接加算またはカスケードを使用して 2 つのモーダル検索領域の機能を組み合わせ、予測ヘッドを入力して最終予測結果を出力します。ただし、現在の RGB-T 単一ターゲット追跡データ セットによって提供されるビデオ画像は完全に一致しているわけではなく、暗い夜やホット クロストラッキング シナリオでの RGB モーダル検索エリアなど、すべてのモーダル検索エリアが有効な情報を提供できるわけではありません。また、赤外線の外側の捜索エリアでは効果的な目標の出現情報を提供できず、多くの背景ノイズが発生します。したがって、要素ごとの加算またはカスケードによってフィーチャを直接マージする場合、異なる検索領域内のフィーチャをマージする問題は考慮されません。 この問題を解決するために、この論文では、Fusion Feature Selection Module (FFSM) と呼ばれる新しい方法を提案します。 FFSM モジュールは主に、有効な情報を持つターゲットの外観の検索領域特徴を選択するために使用されます。具体的には、FFSM モジュールはまず、アテンション メカニズムを通じて各検索エリア特徴の重みを学習します。次に、検索エリアの特徴が重み付けされ、これらの重みに基づいて合計され、最終的な融合特徴が得られます。このメカニズムにより、無効な背景ノイズを効果的に除去し、より重要度の高いターゲットの外観情報を抽出できるため、RGB-T 単一ターゲット追跡パフォーマンスが向上します。 FFSM モジュールの有効性を検証するために、大量のバックグラウンド ノイズの存在下で実験を実施しました。実験結果は、FFSM モジュールを使用した RGB-T 単一ターゲット追跡ネットワークが、要素ごとの直接加算またはカスケードと比較して、ターゲット追跡において優れたパフォーマンスを達成することを示しています。暗い夜や暑いクロストラッキングのシナリオでは、FFSM モジュールは効果的なターゲットの出現情報を正確に選択でき、ターゲット追跡の精度と堅牢性が向上します。 つまり、FFSM モジュールの導入により、直接特徴融合の問題が効果的に解決され、RGB-T 単一ターゲット追跡ネットワークのパフォーマンスが向上します。この方法は、大量の背景ノイズが存在する状況でも広く使用できます
この記事では、以下に基づく効率的な 1 段階 RGB-T 単一ターゲット追跡ネットワーク USTrack を紹介します。変成器。その核心は、3 段階融合追跡法の 3 つの機能部分を ViT バックボーン ネットワークに直接統合し、結合特徴抽出、融合および相関モデリング手法を通じて同時に実行できるようにすることで、これにより、モーダル相互作用の下でターゲット テンプレートの直接抽出と検索を実現します。領域の融合特徴は、2 つの融合特徴間の関連モデリングを構築するため、追跡速度と精度が大幅に向上します。さらに、USTrack はモーダル信頼性に基づいた特徴選択メカニズムも設計しました。これにより、無効なモードの生成を直接抑制することで無効なモードの干渉を軽減でき、それによって最終的な追跡結果に対するノイズ情報の影響を軽減できます。最終的に、USTrack は、現在の RGB-T 単一ターゲット追跡において 84.2FPS という最速の速度を実現し、2 つのモーダル画像内のターゲットの位置偏差を最小限に抑え、追跡結果に対する無効なモーダル情報の影響を軽減することで、ノイズ情報を大幅に削減しました。最終的な予測結果への影響。
この記事の貢献は次のとおりです:
現在の 3 段階の融合追跡ネットワークには、モーダル特徴抽出段階でモーダル相互作用が欠如しているという問題があります。この章では、結合特徴抽出、融合、相関モデリング手法を提案します。この方法は、モダリティの相互作用の下でターゲットテンプレートと検索領域の融合特徴を直接抽出し、同時に2つの融合特徴間の相関モデリング操作を実行できます。初めて、効率的かつ簡潔な単一ステージ融合追跡パラダイムが、短期的な RGB-T 単一ターゲット追跡ネットワークの設計に提供されます。
元のテキストの意味を変更せず、文の構造を調整してください。「%EF%BC%882%EF%BC%89 は、モーダル信頼性に基づいた特徴選択メカニズムを最初に提案しました。これは、さまざまなモーダル画像の信頼性を評価できます。実際の追跡環境のプロパティに基づいて、無効なモダリティによって生成された融合特徴を信頼性に基づいて破棄し、最終的な予測結果に対するノイズ情報の影響を軽減し、それによって追跡パフォーマンスをさらに向上させます。」
この記事では、3 つの主流の RGB-T シングルを紹介します。ターゲット追跡ベンチマーク データは、この方法が新しい SoTA パフォーマンスを達成するだけでなく、最大 84.2FPS という最速の追跡速度を生み出すことを示しています。特に、VTUAV 短期追跡データセットと長期追跡データセットでは、USTrack は、MPR/MSR メトリクスで既存の最良の方法を 11.1%/11.7% および 11.3%/9.7% 上回っています。
図 3 に示すように、USTrack の全体的なアーキテクチャは、デュアル エンベディング レイヤー、ViT バックボーン ネットワーク、モーダル信頼性に基づく機能選択メカニズムの 3 つの部分で構成されます。デュアル埋め込み層は 2 つの独立した埋め込み層で構成されます。これは、アテンション メカニズムが類似性に基づいてグローバル情報を取得し、モデルがアテンションを通じて直接マッピングされる場合、異なるモーダル データの固有のパフォーマンスによって 2 つのモダリティが同じパターンに対して異なる特徴表現を持つ可能性があることを考慮しています。この異質性により制限される可能性があります。モーダル状態共有情報をモデル化するネットワークの機能により、後続の機能融合プロセスに影響を与えます。したがって、USTrack は 2 つの学習可能な埋め込み層を使用して、異なるモダリティに対応する入力を融合しやすい空間にマッピングし、2 つのモダリティをある程度調整し、特徴融合に対するモーダル組み込みの影響を軽減します。次に、二重埋め込み層のすべての出力は、ViT バックボーン ネットワークの入力として共同で使用され、アテンション層を直接通過します。 注意を通じてモーダル情報、特徴融合、ターゲット テンプレート融合を融合し、RGB-T トラッキングの 3 つの機能段階を統合し、RGB-T トラッキングのための効率的な単一段階トラッキング パラダイムを提供します。
パターン信頼性に基づく特徴選択メカニズムは、予測ヘッドと 2 つの信頼性評価モジュールです。これにより、2 つの予測ヘッドが異なる結果を出力できるようになり、パターン信頼性スコアに基づいて、ネットワークが現在の追跡シナリオにより適したパターンに対応する検索エリアを選択するのに役立ちます。特徴選択メカニズムを最終予測に使用すると、無効なパターンによって生成されたノイズ情報が最終予測結果に与える影響を軽減できます。
選択した GTOT、RGB234、および VTUAV データ セットをテスト ベンチマークとして追跡し、テスト結果を図 4 に示します。また、さまざまな課題シナリオにおける USTrack のパフォーマンスを分析するためのベンチマークとして VTUAV を使用しました。図 5 に示すように、この記事では、最も明白なパフォーマンス向上をもたらす 6 つの困難な属性を除外しました。それらは、変形 (DEF)、スケール変更 (SV)、完全オクルージョン (FO)、部分オクルージョン (PO)、サーマル クロスオーバー (TC)、極限照明 (EI) です。具体的には、変形 (DEF) およびスケール変更 (SV) チャレンジ属性は、追跡プロセス中のターゲットの外観の違いを効果的に実証できます。フルオクルージョン(FO)、部分オクルージョン(PO)、サーマルクロスオーバー(TC)、エクストリームイルミネーション(EI)のチャレンジ属性により、対応するモーダル状態の外観が変化または消失し、さまざまなチャレンジシナリオにおけるターゲットのダイナミクスを効果的に実証できます。関係。 UStrack は、これらの困難な属性を伴う追跡シナリオで最も大幅なパフォーマンス向上を達成しました。また、結合特徴抽出、融合、相関モデリングのアプローチにより、3 つの要素の抽出段階におけるモーダル特徴の相互作用が不十分であるという問題を効果的に軽減できると評価できます。ステージフュージョン追跡パラダイムは、追跡中のターゲットのさまざまな外観とモダリティの間の動的な関係によりよく適応できます。
図 6 と図 6 に示すように、モーダル信頼性に基づく特徴選択メカニズムの有効性を検証するために、二重予測間の比較実験でモデルを拡張しました。特徴選択メカニズムのヘッド構造といくつかの一般的な予測ヘッド構造が実行され,モーダル信頼性と実際の追跡シーンとの間の良好な対応の視覚的結果が得られた。
この章では、Transformer に基づいた効率的な単一ステージの短期 RGB-T 単一ターゲット追跡ネットワーク USTrack を提案します。 USTrack の核心は、従来の 3 段階の融合追跡ネットワークの特徴抽出段階におけるモーダル相互作用の欠如の問題を解決するための共同特徴抽出、融合、および相関モデリング方法を提案することです。これにより、多様なターゲットのバイモーダルな外観とモーダルな外観間の動的な対応に対する追跡ネットワークの適応性が強化されます。これに基づいて、モード信頼性に基づく特徴選択メカニズムがさらに提案されます。このメカニズムは、無効なモードによって生成された融合特徴を直接破棄することにより、最終的な予測結果に対するノイズ情報の影響を軽減し、それによってより優れた追跡パフォーマンスを実現します。 USTrack は 3 つの主流データセットで SoTA パフォーマンスを達成し、84.2 FPS という最速の RGB-T トラッキング推論速度の新記録を樹立しました。現在最大の RGB-T 単一ターゲット追跡ベンチマーク データ セット VTUAV では、この方法は既存の SoTA 方法と比較して、評価指標 MPR/MSR をそれぞれ 11.1%/11.7% および 11.3%/9.7% 増加させます。は、このベンチマーク データ セットに新しく強力なベースライン手法を追加することで、パフォーマンスに大きな進歩を遂げました。
1. Xia Qiangqiang
軍事科学院国防科学技術イノベーション研究所修士課程の学生。研究対象には、視覚画像処理、ターゲット検出、単一ターゲット追跡などが含まれます。最初の著者は CCF クラス A カンファレンスで記事を発表し、2022 年の「ファーウェイ カップ」第 4 回中国大学院人工知能イノベーション コンペティションでファーウェイの優勝賞を受賞しました。
2. Zhao Jian
Zhao Jian、中国電信人工知能研究所のマルチメディア認知学習研究所 (EVOL Lab) 所長、若手科学者、ノースウェスタン工科大学光電子知能研究所の研究者、シンガポール国立大学で博士号を取得しており、研究分野にはマルチメディア分析、ローカル セキュリティ、および身体化されたインテリジェンスが含まれます。
制約のない視覚知覚理解に関して合計 32 件の CCF-A 論文が発表され、T-PAMI や CVPR などの権威ある国際ジャーナルや会議で筆頭著者/連絡著者として 31 件の論文が発表され、そのうち 1 人の著者は T-PAMI× でした2 (IF: 24.314)、IJCV×3 (IF: 13.369)、最初の発明者は 5 件の国内発明特許を認可しました。関連する技術成果は、Baidu、Ant Financial、Qihoo 360 を含むテクノロジー業界の大手企業 6 社によって適用され、大きな利益をもたらしています。中国科学技術協会と北京科学技術協会の「若手人材育成プロジェクト」に選出され、国家自然青少年科学基金など6つのプロジェクトを主催した。 Wu Wenjun Artificial Intelligence Outstanding Youth Award (2023)、Wu Wenjun Artificial Intelligence Natural Science Award の最優秀賞 (2022 年 2 月 5 日)、シンガポールパターン認識機械知能協会 (PREMIA) Lee Hwee Kuan Award、およびACM Multimedia Paper Award の唯一の最優秀学生 (最初の作品、1/208、CCF-A カンファレンス、2018) は、重要な国際科学技術イベントで 7 回優勝しました。
北京画像グラフィック協会の理事、国際的に有名なジャーナル「Artificial Intelligence Advances」および「IET Computer Vision」の編集委員、「Pattern Recognition Letters」および「Electronics」の特別号のゲスト編集者を務めました。 」、VALSE シニアフィールドチェアマン、および ACM Multimedia 2021 スコアラー。フォーラム会長、CICAI 2022/2023 エリア会長、CCBR 2024 フォーラム会長、中国人工知能協会/中国画像グラフィックス協会の上級会員、「チャレンジ」の審査員「Cup」大学生科学技術作品コンテスト、中国人工知能コンテスト専門委員会委員など
ホームページ: https://zhaoj9014.github.io
紙のスクリーンショット
紙のリンク
https://arxiv.org/abs/2308.13764
コードリンク
https://github.com/xiajianqiang
以上がTransformer に基づく効率的な 1 段階の短期 RGB-T 単一ターゲット追跡方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。