目錄
主要貢獻
核心方法
實驗效果
首頁 科技週邊 人工智慧 BAT方法:AAAI 2024首個多模態目標追蹤通用雙向適配器

BAT方法:AAAI 2024首個多模態目標追蹤通用雙向適配器

Jan 24, 2024 pm 03:33 PM
ai 訓練

目標追蹤是電腦視覺的基礎任務之一,近年來,單模態(RGB)目標追蹤取得了重大進展。然而,由於單一成像感測器的限制,我們需要引入多模態影像(如RGB、紅外線等)來彌補這一缺陷,以實現在複雜環境下的全天候目標追蹤。這種多模態影像的應用可以提供更全面的信息,增強目標檢測和追蹤的準確性和穩健性。多模態目標追蹤的發展對於實現更高層次的電腦視覺應用具有重要意義。

然而,現有的多模態追蹤任務也面臨兩個主要問題:

  1. 由於多模態目標追蹤的資料標註成本高,大多數現有資料集規模有限,不足以支援建構有效的多模態追蹤器;
  2. 因為不同的成像方式在變化的環境中對物體的敏感度不同,開放世界中主導模態是動態變化的,多模態資料之間的主導相關性並不固定。

在RGB序列上進行預訓練,然後完全微調到多模態場景的許多多模態追蹤工作存在時間和效率問題,同時效能有限。

除了完全微調方法之外,還受到自然語言處理(NLP)領域參數高效微調方法的啟發。最近的一些方法在多模態追蹤中引入了參數高效prompt微調。這些方法透過凍結骨幹網路參數,並添加一組額外可學習的參數來實現。

通常,這些方法主要以一種模態(通常是RGB)作為主要模態,而另一種模態則作為輔助模態。然而,這種方法忽略了多模態資料之間的動態關聯性,因此在複雜場景中無法充分利用多模態資訊的互補效果,從而限制了追蹤效能。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

圖 1:複雜場景下不同的主導模態。

為了解決上述問題,天津大學的研究人員提出了一種名為雙向適配器用於多模態追蹤(BAT)的解決方案。與傳統方法不同的是,BAT方法不依賴固定的主導模態和輔助模態,而是透過動態提取有效資訊的過程中,在輔助模態向主導模態的變化中獲得更好的性能。這種方法的創新之處在於它能夠適應不同的資料特徵和任務需求,從而提高基礎模型在下游任務中的表示能力。透過使用BAT方法,研究人員希望能夠提供更靈活和高效的多模態追蹤解決方案,為相關領域的研究和應用帶來更好的效果。

BAT 由兩個特定於模態分支的共享參數的基礎模型編碼器和一個通用的雙向適配器組成。在訓練過程中,BAT 並沒有對基礎模型進行全面微調,而是採用了逐步訓練的方法。每個特定的模態分支都是透過使用固定參數的基礎模型進行初始化的,只訓練新增的雙向適配器。每個模態分支從其他模態中學習提示訊息,並與當前模態的特徵資訊結合,以增強表徵能力。兩個特定模態的分支透過通用雙向適配器進行交互,動態地相互融合主導和輔助訊息,以適應多模態非固定關聯的範式。這種設計使得BAT能夠在不改變原內容意義的情況下微調內容,並提升模型的表徵能力與適應性。

通用雙向適配器採用輕量級沙漏結構,可以嵌入到基礎模型的每一層transformer編碼器中,避免引入大量可學習參數。透過僅增加少量的訓練參數(0.32M),與全微調方法和基於提示學習的方法相比,通用雙向適配器具有更低的訓練成本,並獲得更好的追蹤性能。

論文《Bi-directional Adapter for Multi-modal Tracking》:

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

##論文連結:https ://arxiv.org/abs/2312.10611

#程式碼連結:https://github.com/SparkTempest/BAT#

主要貢獻

  • 我們首先提出了一個基於 adapter 的多模態追蹤視覺提示框架。我們的模型能夠感知開放場景中主導模態的動態變化,以自適應的方式有效融合多模態資訊。
  • 據我們所知,我們首次為基礎模型提出了一個通用的雙向 adapter。它結構簡單、高效,能有效實現多模態交叉提示追蹤。透過僅添加 0.32M 可學習參數,我們的模型可以穩健應對開放場景下的多模態追蹤。
  • 我們深入分析了我們的通用 adapter 在不同層深的影響。我們也在實驗中探索了更有效率的 adapter 架構,並驗證了我們在多個 RGBT 追蹤相關資料集上的優勢。

核心方法

如圖2 所示,我們提出了一個基於雙向Adapter 的多模態追蹤視覺提示框架(BAT),框架具有RGB 模態和熱紅外線模態的雙流編碼器結構,每個流使用相同的基礎模型參數。雙向 Adapter 與雙流編碼器層並行設置,從兩個模態相互交叉提示多模態資料。

方法沒有對基礎模型進行完全的微調,僅透過學習輕量級雙向Adapter,將預先訓練好的RGB 追蹤器高效地轉移到多模態場景中,實現了出色的多模態互補性和卓越的追蹤精度。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

圖 2:BAT 的整體架構。

首先將每個模態的首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024#模板影格(第一幀中目標物體的初始方塊首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024#)和首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024搜尋影格(後續追蹤影像)轉換為 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024,將它們拼接在一起分別傳遞給N 層雙流transformer 編碼器。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

雙向 adapter 與雙流編碼器層並行設置,可以學習從一種模態到另一種模態的特徵提示。為此,將兩個分支的輸出特徵相加並輸入到預測頭 H 中,得到最終的追蹤結果框 B。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

雙向adapter 採用模組化設計,分別嵌入多頭自註意力階段和MLP 階段,如圖1 右側所示雙向adapter 的詳細結構,其設計用於將特徵提示從一種模態轉移到另一種模態。它由三個線性投影層組成,tn 表示每個模態的token 個數,輸入token 首先通過下投影被降維為de 並通過一個線性投影層,然後向上投影到原始維度dt 並作為特徵提示反饋到其他模態的transformer 編碼器層。

透過這個簡單的結構,雙向 adapter 可以有效地在 首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024 模態之間進行特徵提示,實現多模態追蹤。

由於凍結了 transformer 編碼器和預測頭,因此只需要最佳化新增 adapter 的參數。值得注意的是,與大多數傳統 adapter 不同,我們的雙向 adapter 是作為動態變化的主導模態的跨模態特徵提示而發揮作用的,確保了開放世界中良好的跟踪性能。

實驗效果

如表1 所示,在RGBT234 和LasHeR 兩個資料集上的比較顯示我們在的方法在準確率和成功率上均優於最先進的方法。如圖 3 所示,在 LasHeR 資料集的不同場景屬性下,與最先進方法的效能比較也證明了所提出方法的優越性。

這些實驗充分證明了我們的雙流追蹤框架與雙向Adapter 成功地追蹤了大多數複雜環境中的目標,並自適應地從動態變化的主導- 輔助模態中提取有效訊息,達到了最先進的性能。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

表 1 RGBT234 和 LasHeR 資料集上的整體效能。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

圖 3 LasHeR 資料集中不同屬性下 BAT 與競爭方法的比較。

實驗證明我們在複雜場景中從不斷變化的主導 - 輔助模式中動態提示有效資訊的有效性。如圖4 所示,與固定主導模態的相關方法相比,我們的方法即使在RGB 完全不可用的情況下也能有效地追踪目標,當RGB 和TIR 在後續場景中都能提供有效的信息時,追蹤效果要好得多。我們的雙向 Adapter 從 RGB 和 IR 模態中動態提取目標的有效特徵,捕捉更準確的目標響應位置,並消除 RGB 模態的干擾。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

圖 4 追蹤結果的視覺化。

我們同樣在 RGBE 追蹤資料集上評估了我們的方法。如圖 5 所示,在 VisEvent 測試集上與其他方法相比,我們的方法在不同複雜場景下的追蹤結果最為準確,證明了我們的 BAT 模型的有效性和泛化性。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

圖 5 VisEvent 資料集下追蹤結果。

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

#圖 6 attention 權重視覺化。

我們在圖 6 中視覺化了不同層追蹤目標的注意力權重。與baseline-dual (基礎模型參數初始化的雙流框架) 方法相比,我們的BAT 有效地驅動輔助模態向主導模態學習更多的互補信息,同時隨著網絡深度的增加保持主導模態的有效性,從而提高了整體追蹤性能。

實驗表明,BAT 成功地捕捉了多模態互補訊息,實現了樣本自適應動態追蹤。

以上是BAT方法:AAAI 2024首個多模態目標追蹤通用雙向適配器的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1665
14
CakePHP 教程
1424
52
Laravel 教程
1321
25
PHP教程
1269
29
C# 教程
1249
24
C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

如何理解C  中的DMA操作? 如何理解C 中的DMA操作? Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C  中處理高DPI顯示? 怎樣在C 中處理高DPI顯示? Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C  中的實時操作系統編程是什麼? C 中的實時操作系統編程是什麼? Apr 28, 2025 pm 10:15 PM

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

怎樣在C  中測量線程性能? 怎樣在C 中測量線程性能? Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

給MySQL表添加和刪除字段的操作步驟 給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

deepseek官網是如何實現鼠標滾動事件穿透效果的? deepseek官網是如何實現鼠標滾動事件穿透效果的? Apr 30, 2025 pm 03:21 PM

如何實現鼠標滾動事件穿透效果?在我們瀏覽網頁時,經常會遇到一些特別的交互設計。比如在deepseek官網上,�...

See all articles