BAT 方式: AAAI 2024 の最初のマルチモーダル ターゲット追跡ユニバーサル双方向アダプター
オブジェクト追跡は、コンピュータ ビジョンの基本タスクの 1 つであり、近年、単一モダリティ (RGB) オブジェクト追跡が大幅に進歩しました。ただし、単一のイメージ センサーには限界があるため、複雑な環境で全天候型ターゲット追跡を実現するには、この欠点を補うためにマルチモーダル画像 (RGB、赤外線など) を導入する必要があります。このようなマルチモーダル画像を適用すると、より包括的な情報が提供され、ターゲットの検出と追跡の精度と堅牢性が向上します。マルチモーダルターゲット追跡の開発は、より高度なコンピュータビジョンアプリケーションを実現するために非常に重要です。
しかし、既存のマルチモーダル追跡タスクは、次の 2 つの主な問題にも直面しています。
- マルチモーダルなターゲット追跡によるコストデータ アノテーションの割合が高く、既存のデータ セットのほとんどはサイズが限られており、効果的なマルチモーダル トラッカーの構築をサポートするには不十分です。
- 画像処理方法が異なればオブジェクトに対する影響も異なるため、感度が異なると、オープンワールドの支配的なモードは動的に変化し、マルチモーダルデータ間の支配的な相関関係は固定されません。
RGB シーケンスで事前トレーニングしてからマルチモーダル シーンに合わせて完全に微調整する多くのマルチモーダル トラッキング作業には、時間と効率の問題があり、パフォーマンスも制限されています。 。
完全な微調整方法に加えて、自然言語処理 (NLP) の分野におけるパラメーターの効率的な微調整方法からもインスピレーションを得ています。最近のいくつかの手法では、マルチモーダル トラッキングにおけるパラメータ効率の高いプロンプト微調整が導入されています。これらの方法では、バックボーン ネットワーク パラメータを凍結し、学習可能なパラメータのセットを追加することでこれを実現します。
通常、これらの方法は、1 つのモダリティ (通常は RGB) を主モダリティとして、もう 1 つのモダリティを補助モダリティとして焦点を当てます。しかし、この方法ではマルチモーダルデータ間の動的な相関関係が無視されるため、複雑なシーンではマルチモーダル情報の相補効果を十分に活用できず、追跡性能が制限されます。
図 1: 複雑なシナリオにおけるさまざまな主要モード。
上記の問題を解決するために、天津大学の研究者は、マルチモーダル追跡用双方向アダプター (BAT) と呼ばれるソリューションを提案しました。従来の方式とは異なり、BAT方式は固定のドミナントモードと補助モードに依存せず、有効な情報を動的に抽出するプロセスを通じて補助モードからドミナントモードへの変更時に優れたパフォーマンスを獲得します。この方法の革新的な点は、さまざまなデータ特性やタスク要件に適応できるため、下流タスクにおける基本モデルの表現能力が向上することです。研究者らは、BAT 手法を使用することで、より柔軟で効率的なマルチモーダル追跡ソリューションを提供し、関連分野の研究や応用により良い結果をもたらすことを期待しています。
BAT は、モーダル ブランチに固有の共有パラメーターを備えた 2 つの基本モデル エンコーダーと一般的な双方向アダプターで構成されます。トレーニング プロセス中、BAT は基本モデルを完全には微調整しませんでしたが、ステップバイステップのトレーニング方法を採用しました。特定のモダリティ ブランチはそれぞれ、固定パラメーターを持つ基本モデルを使用して初期化され、新しく追加された双方向アダプターのみがトレーニングされます。各モーダル ブランチは他のモダリティからキュー情報を学習し、それを現在のモダリティの特徴情報と組み合わせて表現機能を強化します。 2 つのモダリティ固有のブランチは、ユニバーサル双方向アダプターを介して相互作用し、主要な情報と補助的な情報を互いに動的に融合して、マルチモーダル非固定関連付けのパラダイムに適応します。この設計により、BAT は元のコンテンツの意味を変更することなくコンテンツを微調整できるようになり、モデルの表現能力と適応性が向上します。
ユニバーサル双方向アダプタは軽量の砂時計構造を採用しており、基本モデルのトランスエンコーダの各層に埋め込むことができるため、多数の学習可能なパラメータの導入を避けることができます。少数のトレーニング パラメーター (0.32M) のみを追加することで、ユニバーサル双方向アダプターは、完全に微調整された方法やキュー学習ベースの方法と比較して、トレーニング コストが低くなり、より優れた追跡パフォーマンスを実現します。
論文「マルチモーダル追跡のための双方向アダプター」:
論文リンク: https://arxiv.org/abs/2312.10611
コードリンク: https://github.com/SparkTempest/BAT
主な貢献
- まず、アダプターベースのマルチモーダル追跡ビジュアルキューフレームワークを提案します。私たちのモデルは、オープンシーンにおける主要なモダリティの動的な変化を認識し、適応的な方法でマルチモーダル情報を効果的に融合することができます。
- 私たちの知る限りでは、ベースモデルにユニバーサル双方向アダプターを初めて提案します。シンプルで効率的な構造を持ち、マルチモーダルクロスキュートラッキングを効果的に実現できます。 0.32M の学習可能なパラメーターのみを追加することで、私たちのモデルはオープン シナリオでのマルチモーダル追跡に対して堅牢になります。
- 私たちは、ユニバーサル アダプターの影響をさまざまなレベルで詳細に分析しました。また、実験でより効率的なアダプター アーキテクチャを探索し、複数の RGBT 追跡関連データセットでの利点を検証します。
コアメソッド
図 2 に示すように、双方向アダプターに基づいたマルチモーダル追跡ビジュアル キュー フレームワークを提案します。 (BAT) のフレームワークには、RGB モダリティと熱赤外線モダリティを備えたデュアル ストリーム エンコーダ構造があり、各ストリームは同じ基本モデル パラメータを使用します。双方向アダプターは、2 つのモダリティからのマルチモーダル データをクロスキューするために、デュアル ストリーム エンコーダー層と並行してセットアップされます。
このメソッドは、基本モデルを完全には微調整しません。軽量の双方向アダプターを学習することによって、事前にトレーニングされた RGB トラッカーをマルチモーダル シーンに効率的に転送するだけです。優れたマルチモードを実現します。 -モーダル相補性と優れた追跡精度。
図 2: BAT の全体的なアーキテクチャ。
まず、各モダリティの テンプレート フレーム (最初のフレームの対象オブジェクトの最初のフレーム)
) と
の検索フレーム (後続の追跡画像) は
に変換され、結合されて N-それぞれレイヤーデュアルストリームトランスフォーマーエンコーダー。
双方向アダプターは、あるモダリティから別のモダリティへの特徴キューを学習するために、デュアルストリーム エンコーダー層と並行してセットアップされます。この目的のために、2 つのブランチの出力特徴が加算されて予測ヘッド H に入力され、最終的な追跡結果ボックス B が得られます。
双方向アダプターはモジュラー設計を採用しており、右に示すように、マルチヘッドセルフアテンションステージとMLPステージにそれぞれ組み込まれています。図 1 の側面。特徴キューを 1 つのモダリティから別のモダリティに転送するように設計された詳細な構造。 3 つの線形投影層で構成され、tn は各モダリティのトークンの数を表します。入力されたトークンは、まず下方投影によって de に次元削減され、線形投影層を通過し、次に元の次元 dt に上方投影されてフィードバックされます。機能プロンプトとして、Transformer エンコーダー レイヤを他のモダリティに変換します。
この単純な構造により、双方向アダプターは モダリティ間で機能プロンプトを効果的に実行し、マルチモーダル追跡を実現できます。
トランスエンコーダーと予測ヘッドはフリーズされているため、新しく追加されたアダプターのパラメーターのみを最適化する必要があります。特に、ほとんどの従来のアダプターとは異なり、当社の双方向アダプターは、主要なモダリティを動的に変更するためのクロスモーダル機能キューとして機能し、オープンワールドで優れた追跡パフォーマンスを保証します。
実験結果
表 1 に示すように、RGBT234 と LasHeR の 2 つのデータセットを比較すると、この方法が精度と成功率の両方を備えていることがわかります。 -最先端のメソッド。図 3 に示すように、LasHeR データセットのさまざまなシーン特性の下での最先端の手法とのパフォーマンスの比較からも、提案された手法の優位性が実証されています。
これらの実験は、当社のデュアル ストリーム追跡フレームワークと双方向アダプターが、最も複雑な環境でターゲットを正常に追跡し、動的に変化する支配-補助モードから適応的に切り替えることを完全に証明しています。システムから有効な情報を抽出し、最先端のパフォーマンスを実現します。
#表 1 RGBT234 および LasHeR データセットの全体的なパフォーマンス。
図 3 LasHeR データセットのさまざまな属性における BAT と競合メソッドの比較。
実験では、複雑なシナリオで変化する支配-補助パターンから効果的な情報を動的に促す有効性を実証しています。図4に示すように、ドミナントモードを固定する関連方法と比較して、RGBとTIRの両方が後続のシーンで有効な情報を提供できる場合、私たちの方法はRGBが完全に利用できない場合でもターゲットを効果的に追跡でき、追跡効果ははるかに優れています。 。当社の双方向アダプタは、RGB モダリティと IR モダリティの両方からターゲットの効果的な特徴を動的に抽出し、より正確なターゲットの応答位置を捕捉し、RGB モダリティからの干渉を排除します。
# 図 4 追跡結果の視覚化。
# RGBE トレース データセットでもメソッドを評価します。図 5 に示すように、VisEvent テスト セットの他の方法と比較して、私たちの方法はさまざまな複雑なシナリオで最も正確な追跡結果が得られ、BAT モデルの有効性と一般化が証明されています。
図 5 VisEvent データ セットでの結果の追跡。
図 6 では、ターゲットを追跡するさまざまなレイヤーの注意の重みを視覚化します。ベースライン デュアル (基本モデル パラメーター初期化用のデュアル ストリーム フレームワーク) 方式と比較して、当社の BAT は補助モードを効果的に駆動して、ドミナント モードからより補完的な情報を学習しながら、ネットワークの深さが増加してもドミナント モードの有効性を維持します。これにより、全体的な追跡パフォーマンスが向上します。
実験により、BAT がマルチモーダルな相補情報をうまく捕捉し、サンプルの適応動的追跡を実現できることが示されました。
以上がBAT 方式: AAAI 2024 の最初のマルチモーダル ターゲット追跡ユニバーサル双方向アダプターの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











c言語関数の返品値タイプには、int、float、double、char、void、およびポインタータイプが含まれます。 intは整数を返すために使用され、フロートとダブルはフロートを返すために使用され、charは文字を返します。 voidとは、関数が値を返さないことを意味します。ポインタータイプはメモリアドレスを返し、メモリの漏れを避けるように注意してください。構造またはコンソーシアムは、複数の関連データを返すことができます。

C35の計算は、本質的に組み合わせ数学であり、5つの要素のうち3つから選択された組み合わせの数を表します。計算式はC53 = 5です! /(3! * 2!)。これは、ループで直接計算して効率を向上させ、オーバーフローを避けることができます。さらに、組み合わせの性質を理解し、効率的な計算方法をマスターすることは、確率統計、暗号化、アルゴリズム設計などの分野で多くの問題を解決するために重要です。

std :: uniqueは、コンテナ内の隣接する複製要素を削除し、最後まで動かし、最初の複製要素を指すイテレーターを返します。 STD ::距離は、2つの反復器間の距離、つまり、指す要素の数を計算します。これらの2つの機能は、コードを最適化して効率を改善するのに役立ちますが、隣接する複製要素をstd ::のみ取引するというような、注意すべき落とし穴もあります。 STD ::非ランダムアクセスイテレーターを扱う場合、距離は効率が低くなります。これらの機能とベストプラクティスを習得することにより、これら2つの機能の力を完全に活用できます。

CとC#には類似点がありますが、それらは完全に異なります。Cはプロセス指向の手動メモリ管理、およびシステムプログラミングに使用されるプラットフォーム依存言語です。 C#は、デスクトップ、Webアプリケーション、ゲーム開発に使用されるオブジェクト指向のガベージコレクション、およびプラットフォーム非依存言語です。

C関数定義の重要な要素には、リターンタイプ(関数によって返される値の定義)、関数名(命名仕様に続き、スコープの決定)、パラメーターリスト(関数で受け入れられたパラメータータイプ、数量、順序の定義)、および関数本文(関数のロジックの実装)が含まれます。これらの要素の意味と微妙な関係を明確にすることが重要であり、開発者が「ピット」を回避し、より効率的でエレガントなコードを書くのに役立ちます。

関数ポインターは関数へのポインターであり、ポインター関数はポインターを返す関数です。関数ポインターは、異なる関数を選択および実行するために使用される関数を指します。ポインター関数は、ポインターを変数、配列、またはその他の機能に戻します。関数ポインターを使用する場合、ポインターヌル値のマッチングとチェックに注意してください。ポインター関数を使用する場合は、メモリ管理に注意し、動的に割り当てられたメモリを無料で割り当てます。混乱やエラーを避けるために、2つの違いと特性を理解してください。

アルゴリズムは、問題を解決するための一連の指示であり、その実行速度とメモリの使用量はさまざまです。プログラミングでは、多くのアルゴリズムがデータ検索とソートに基づいています。この記事では、いくつかのデータ取得およびソートアルゴリズムを紹介します。線形検索では、配列[20,500,10,5,100,1,50]があることを前提としており、数50を見つける必要があります。線形検索アルゴリズムは、ターゲット値が見つかるまで、または完全な配列が見られるまで配列の各要素を1つずつチェックします。アルゴリズムのフローチャートは次のとおりです。線形検索の擬似コードは次のとおりです。各要素を確認します:ターゲット値が見つかった場合:return true return false c言語実装:#include#includeintmain(void){i

関数ポインターの柔軟なアプリケーション:比較関数を使用して、配列の最大値を見つけます。最初に、比較関数タイプCompareFuncを定義し、比較関数CompareMax(a、b)を書き込みます。 FindMax関数は、配列、配列サイズ、および比較関数パラメーターを受け入れ、比較関数を使用してループに使用して配列要素を比較して最大値を見つけます。この方法には強力なコードの再利用性があり、高次プログラミングのアイデアを反映しており、より複雑な問題を解決するのに役立ちます。
