BAT 方式: AAAI 2024 の最初のマルチモーダルターゲット追跡ユニバーサル双方向アダプター-AI-php.cn

主な貢献

コアメソッド

実験結果

ホームページ

テクノロジー周辺機器

BAT 方式: AAAI 2024 の最初のマルチモーダルターゲット追跡ユニバーサル双方向アダプター

PHPz

Jan 24, 2024 pm 03:33 PM

ai 電車

オブジェクト追跡は、コンピュータビジョンの基本タスクの 1 つであり、近年、単一モダリティ (RGB) オブジェクト追跡が大幅に進歩しました。ただし、単一のイメージセンサーには限界があるため、複雑な環境で全天候型ターゲット追跡を実現するには、この欠点を補うためにマルチモーダル画像 (RGB、赤外線など) を導入する必要があります。このようなマルチモーダル画像を適用すると、より包括的な情報が提供され、ターゲットの検出と追跡の精度と堅牢性が向上します。マルチモーダルターゲット追跡の開発は、より高度なコンピュータビジョンアプリケーションを実現するために非常に重要です。

しかし、既存のマルチモーダル追跡タスクは、次の 2 つの主な問題にも直面しています。

マルチモーダルなターゲット追跡によるコストデータアノテーションの割合が高く、既存のデータセットのほとんどはサイズが限られており、効果的なマルチモーダルトラッカーの構築をサポートするには不十分です。
画像処理方法が異なればオブジェクトに対する影響も異なるため、感度が異なると、オープンワールドの支配的なモードは動的に変化し、マルチモーダルデータ間の支配的な相関関係は固定されません。

RGB シーケンスで事前トレーニングしてからマルチモーダルシーンに合わせて完全に微調整する多くのマルチモーダルトラッキング作業には、時間と効率の問題があり、パフォーマンスも制限されています。。

完全な微調整方法に加えて、自然言語処理 (NLP) の分野におけるパラメーターの効率的な微調整方法からもインスピレーションを得ています。最近のいくつかの手法では、マルチモーダルトラッキングにおけるパラメータ効率の高いプロンプト微調整が導入されています。これらの方法では、バックボーンネットワークパラメータを凍結し、学習可能なパラメータのセットを追加することでこれを実現します。

通常、これらの方法は、1 つのモダリティ (通常は RGB) を主モダリティとして、もう 1 つのモダリティを補助モダリティとして焦点を当てます。しかし、この方法ではマルチモーダルデータ間の動的な相関関係が無視されるため、複雑なシーンではマルチモーダル情報の相補効果を十分に活用できず、追跡性能が制限されます。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

図 1: 複雑なシナリオにおけるさまざまな主要モード。

上記の問題を解決するために、天津大学の研究者は、マルチモーダル追跡用双方向アダプター (BAT) と呼ばれるソリューションを提案しました。従来の方式とは異なり、BAT方式は固定のドミナントモードと補助モードに依存せず、有効な情報を動的に抽出するプロセスを通じて補助モードからドミナントモードへの変更時に優れたパフォーマンスを獲得します。この方法の革新的な点は、さまざまなデータ特性やタスク要件に適応できるため、下流タスクにおける基本モデルの表現能力が向上することです。研究者らは、BAT 手法を使用することで、より柔軟で効率的なマルチモーダル追跡ソリューションを提供し、関連分野の研究や応用により良い結果をもたらすことを期待しています。

BAT は、モーダルブランチに固有の共有パラメーターを備えた 2 つの基本モデルエンコーダーと一般的な双方向アダプターで構成されます。トレーニングプロセス中、BAT は基本モデルを完全には微調整しませんでしたが、ステップバイステップのトレーニング方法を採用しました。特定のモダリティブランチはそれぞれ、固定パラメーターを持つ基本モデルを使用して初期化され、新しく追加された双方向アダプターのみがトレーニングされます。各モーダルブランチは他のモダリティからキュー情報を学習し、それを現在のモダリティの特徴情報と組み合わせて表現機能を強化します。 2 つのモダリティ固有のブランチは、ユニバーサル双方向アダプターを介して相互作用し、主要な情報と補助的な情報を互いに動的に融合して、マルチモーダル非固定関連付けのパラダイムに適応します。この設計により、BAT は元のコンテンツの意味を変更することなくコンテンツを微調整できるようになり、モデルの表現能力と適応性が向上します。

ユニバーサル双方向アダプタは軽量の砂時計構造を採用しており、基本モデルのトランスエンコーダの各層に埋め込むことができるため、多数の学習可能なパラメータの導入を避けることができます。少数のトレーニングパラメーター (0.32M) のみを追加することで、ユニバーサル双方向アダプターは、完全に微調整された方法やキュー学習ベースの方法と比較して、トレーニングコストが低くなり、より優れた追跡パフォーマンスを実現します。

論文「マルチモーダル追跡のための双方向アダプター」:

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

論文リンク: https://arxiv.org/abs/2312.10611

コードリンク: https://github.com/SparkTempest/BAT

主な貢献

まず、アダプターベースのマルチモーダル追跡ビジュアルキューフレームワークを提案します。私たちのモデルは、オープンシーンにおける主要なモダリティの動的な変化を認識し、適応的な方法でマルチモーダル情報を効果的に融合することができます。
私たちの知る限りでは、ベースモデルにユニバーサル双方向アダプターを初めて提案します。シンプルで効率的な構造を持ち、マルチモーダルクロスキュートラッキングを効果的に実現できます。 0.32M の学習可能なパラメーターのみを追加することで、私たちのモデルはオープンシナリオでのマルチモーダル追跡に対して堅牢になります。
私たちは、ユニバーサルアダプターの影響をさまざまなレベルで詳細に分析しました。また、実験でより効率的なアダプターアーキテクチャを探索し、複数の RGBT 追跡関連データセットでの利点を検証します。

コアメソッド

図 2 に示すように、双方向アダプターに基づいたマルチモーダル追跡ビジュアルキューフレームワークを提案します。 (BAT) のフレームワークには、RGB モダリティと熱赤外線モダリティを備えたデュアルストリームエンコーダ構造があり、各ストリームは同じ基本モデルパラメータを使用します。双方向アダプターは、2 つのモダリティからのマルチモーダルデータをクロスキューするために、デュアルストリームエンコーダー層と並行してセットアップされます。

このメソッドは、基本モデルを完全には微調整しません。軽量の双方向アダプターを学習することによって、事前にトレーニングされた RGB トラッカーをマルチモーダルシーンに効率的に転送するだけです。優れたマルチモードを実現します。 -モーダル相補性と優れた追跡精度。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

図 2: BAT の全体的なアーキテクチャ。

まず、各モダリティの首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024 テンプレートフレーム (最初のフレームの対象オブジェクトの最初のフレーム) ) との検索フレーム (後続の追跡画像) はに変換され、結合されて N-それぞれレイヤーデュアルストリームトランスフォーマーエンコーダー。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

双方向アダプターは、あるモダリティから別のモダリティへの特徴キューを学習するために、デュアルストリームエンコーダー層と並行してセットアップされます。この目的のために、2 つのブランチの出力特徴が加算されて予測ヘッド H に入力され、最終的な追跡結果ボックス B が得られます。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

双方向アダプターはモジュラー設計を採用しており、右に示すように、マルチヘッドセルフアテンションステージとMLPステージにそれぞれ組み込まれています。図 1 の側面。特徴キューを 1 つのモダリティから別のモダリティに転送するように設計された詳細な構造。 3 つの線形投影層で構成され、tn は各モダリティのトークンの数を表します。入力されたトークンは、まず下方投影によって de に次元削減され、線形投影層を通過し、次に元の次元 dt に上方投影されてフィードバックされます。機能プロンプトとして、Transformer エンコーダーレイヤを他のモダリティに変換します。

この単純な構造により、双方向アダプターは首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024 モダリティ間で機能プロンプトを効果的に実行し、マルチモーダル追跡を実現できます。

トランスエンコーダーと予測ヘッドはフリーズされているため、新しく追加されたアダプターのパラメーターのみを最適化する必要があります。特に、ほとんどの従来のアダプターとは異なり、当社の双方向アダプターは、主要なモダリティを動的に変更するためのクロスモーダル機能キューとして機能し、オープンワールドで優れた追跡パフォーマンスを保証します。

実験結果

表 1 に示すように、RGBT234 と LasHeR の 2 つのデータセットを比較すると、この方法が精度と成功率の両方を備えていることがわかります。 -最先端のメソッド。図 3 に示すように、LasHeR データセットのさまざまなシーン特性の下での最先端の手法とのパフォーマンスの比較からも、提案された手法の優位性が実証されています。

これらの実験は、当社のデュアルストリーム追跡フレームワークと双方向アダプターが、最も複雑な環境でターゲットを正常に追跡し、動的に変化する支配-補助モードから適応的に切り替えることを完全に証明しています。システムから有効な情報を抽出し、最先端のパフォーマンスを実現します。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

#表 1 RGBT234 および LasHeR データセットの全体的なパフォーマンス。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

図 3 LasHeR データセットのさまざまな属性における BAT と競合メソッドの比較。

実験では、複雑なシナリオで変化する支配-補助パターンから効果的な情報を動的に促す有効性を実証しています。図4に示すように、ドミナントモードを固定する関連方法と比較して、RGBとTIRの両方が後続のシーンで有効な情報を提供できる場合、私たちの方法はRGBが完全に利用できない場合でもターゲットを効果的に追跡でき、追跡効果ははるかに優れています。。当社の双方向アダプタは、RGB モダリティと IR モダリティの両方からターゲットの効果的な特徴を動的に抽出し、より正確なターゲットの応答位置を捕捉し、RGB モダリティからの干渉を排除します。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

# 図 4 追跡結果の視覚化。

# RGBE トレースデータセットでもメソッドを評価します。図 5 に示すように、VisEvent テストセットの他の方法と比較して、私たちの方法はさまざまな複雑なシナリオで最も正確な追跡結果が得られ、BAT モデルの有効性と一般化が証明されています。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

図 5 VisEvent データセットでの結果の追跡。

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

# 図 6 アテンションの重みの視覚化。

図 6 では、ターゲットを追跡するさまざまなレイヤーの注意の重みを視覚化します。ベースラインデュアル (基本モデルパラメーター初期化用のデュアルストリームフレームワーク) 方式と比較して、当社の BAT は補助モードを効果的に駆動して、ドミナントモードからより補完的な情報を学習しながら、ネットワークの深さが増加してもドミナントモードの有効性を維持します。これにより、全体的な追跡パフォーマンスが向上します。

実験により、BAT がマルチモーダルな相補情報をうまく捕捉し、サンプルの適応動的追跡を実現できることが示されました。

以上がBAT 方式: AAAI 2024 の最初のマルチモーダルターゲット追跡ユニバーサル双方向アダプターの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7369

Java チュートリアル

1628

CakePHP チュートリアル

1354

Laravel チュートリアル

1266

PHP チュートリアル

1214

Related knowledge

C言語関数の返品値の種類は何ですか？ C言語関数の返品値のタイプの概要？ Apr 03, 2025 pm 11:18 PM

c言語関数の返品値タイプには、int、float、double、char、void、およびポインタータイプが含まれます。 intは整数を返すために使用され、フロートとダブルはフロートを返すために使用され、charは文字を返します。 voidとは、関数が値を返さないことを意味します。ポインタータイプはメモリアドレスを返し、メモリの漏れを避けるように注意してください。構造またはコンソーシアムは、複数の関連データを返すことができます。

c-subscript 3 subscript 5 c-subscript 3 subscript 5アルゴリズムチュートリアルを計算する方法 Apr 03, 2025 pm 10:33 PM

C35の計算は、本質的に組み合わせ数学であり、5つの要素のうち3つから選択された組み合わせの数を表します。計算式はC53 = 5です！ /（3！ * 2！）。これは、ループで直接計算して効率を向上させ、オーバーフローを避けることができます。さらに、組み合わせの性質を理解し、効率的な計算方法をマスターすることは、確率統計、暗号化、アルゴリズム設計などの分野で多くの問題を解決するために重要です。

個別の関数使用距離関数C使用チュートリアル Apr 03, 2025 pm 10:27 PM

std :: uniqueは、コンテナ内の隣接する複製要素を削除し、最後まで動かし、最初の複製要素を指すイテレーターを返します。 STD ::距離は、2つの反復器間の距離、つまり、指す要素の数を計算します。これらの2つの機能は、コードを最適化して効率を改善するのに役立ちますが、隣接する複製要素をstd ::のみ取引するというような、注意すべき落とし穴もあります。 STD ::非ランダムアクセスイテレーターを扱う場合、距離は効率が低くなります。これらの機能とベストプラクティスを習得することにより、これら2つの機能の力を完全に活用できます。

CとC＃の違いと接続は何ですか？ Apr 03, 2025 pm 10:36 PM

CとC＃には類似点がありますが、それらは完全に異なります。Cはプロセス指向の手動メモリ管理、およびシステムプログラミングに使用されるプラットフォーム依存言語です。 C＃は、デスクトップ、Webアプリケーション、ゲーム開発に使用されるオブジェクト指向のガベージコレクション、およびプラットフォーム非依存言語です。

C言語の関数定義の形式は何ですか？ Apr 03, 2025 pm 11:51 PM

C関数定義の重要な要素には、リターンタイプ（関数によって返される値の定義）、関数名（命名仕様に続き、スコープの決定）、パラメーターリスト（関数で受け入れられたパラメータータイプ、数量、順序の定義）、および関数本文（関数のロジックの実装）が含まれます。これらの要素の意味と微妙な関係を明確にすることが重要であり、開発者が「ピット」を回避し、より効率的でエレガントなコードを書くのに役立ちます。

C言語関数ポインターとポインター関数とは何ですか？違いは何ですか？ Apr 03, 2025 pm 11:54 PM

関数ポインターは関数へのポインターであり、ポインター関数はポインターを返す関数です。関数ポインターは、異なる関数を選択および実行するために使用される関数を指します。ポインター関数は、ポインターを変数、配列、またはその他の機能に戻します。関数ポインターを使用する場合、ポインターヌル値のマッチングとチェックに注意してください。ポインター関数を使用する場合は、メモリ管理に注意し、動的に割り当てられたメモリを無料で割り当てます。混乱やエラーを避けるために、2つの違いと特性を理解してください。

CSウィーク3 Apr 04, 2025 am 06:06 AM

アルゴリズムは、問題を解決するための一連の指示であり、その実行速度とメモリの使用量はさまざまです。プログラミングでは、多くのアルゴリズムがデータ検索とソートに基づいています。この記事では、いくつかのデータ取得およびソートアルゴリズムを紹介します。線形検索では、配列[20,500,10,5,100,1,50]があることを前提としており、数50を見つける必要があります。線形検索アルゴリズムは、ターゲット値が見つかるまで、または完全な配列が見られるまで配列の各要素を1つずつチェックします。アルゴリズムのフローチャートは次のとおりです。線形検索の擬似コードは次のとおりです。各要素を確認します：ターゲット値が見つかった場合：return true return false c言語実装：＃include＃includeintmain（void）{i

c言語関数ポインターを使用して、1次元配列の最大値を見つける方法 Apr 03, 2025 pm 11:45 PM

関数ポインターの柔軟なアプリケーション：比較関数を使用して、配列の最大値を見つけます。最初に、比較関数タイプCompareFuncを定義し、比較関数CompareMax（a、b）を書き込みます。 FindMax関数は、配列、配列サイズ、および比較関数パラメーターを受け入れ、比較関数を使用してループに使用して配列要素を比較して最大値を見つけます。この方法には強力なコードの再利用性があり、高次プログラミングのアイデアを反映しており、より複雑な問題を解決するのに役立ちます。

See all articles

BAT 方式: AAAI 2024 の最初のマルチモーダル ターゲット追跡ユニバーサル双方向アダプター

主な貢献

コアメソッド

実験結果

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

BAT 方式: AAAI 2024 の最初のマルチモーダルターゲット追跡ユニバーサル双方向アダプター