清華大學新方法成功定位精確影片片段! SOTA被超越且已開源
只需一句话描述,就能在一大段视频中定位到对应片段!
比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一下子就能揪出对应起止时间戳:
就连“大笑”这种语义难理解型的,也能准确定位:
方法名为自适应双分支促进网络(ADPN),由清华大学研究团队提出。
具体来说,ADPN是用来完成一个叫做视频片段定位(Temporal Sentence Grounding,TSG)的视觉-语言跨模态任务,也就是根据查询文本从视频中定位到相关片段。
ADPN的特点在于能够高效利用视频中视觉和音频模态的一致性与互补性来增强视频片段定位性能。
相较其他利用音频的TSG工作PMI-LOC、UMT,ADPN方法从音频模态获取了更显著地性能提升,多项测试拿下新SOTA。
目前该工作已经被ACM Multimedia 2023接收,且已完全开源。
一起来看看ADPN究竟是个啥~
一句话定位视频片段
视频片段定位(Temporal Sentence Grounding,TSG)是一项重要的视觉-语言跨模态任务。
它的目的是根据自然语言查询,在一个未剪辑的视频中找到与之语义匹配的片段的起止时间戳,它要求方法具备较强的时序跨模态推理能力。
然而,大多数现有的TSG方法只考虑了视频中的视觉信息,如RGB、光流(optical flows)、深度(depth)等,而忽略了视频中天然伴随的音频信息。
音频信息往往包含丰富的语义,并且与视觉信息存在一致性和互补性,如下图所示,这些性质会有助于TSG任务。
△图1
(a)一致性:视频画面和脚步声一致地匹配了查询中的“走下楼梯”的语义;(b)互补性:视频画面难以识别出特定行为来定位查询中的“笑”的语义,但是笑声的出现提供了强有力的互补定位线索。
因此研究人员深入研究了音频增强的视频片段定位任务(Audio-enhanced Temporal Sentence Grounding,ATSG),旨在更优地从视觉与音频两种模态中捕获定位线索,然而音频模态的引入也带来了如下挑战:
- 音频和视觉模态的一致性和互补性是与查询文本相关联的,因此捕获视听一致性与互补性需要建模文本-视觉-音频三模态的交互。
- 音频和视觉间存在显著的模态差异,两者的信息密度和噪声强度不同,这会影响视听学习的性能。
为了解决上述挑战,研究人员提出了一种新颖的ATSG方法“自适应双分支促进网络”(Adaptive Dual-branch Prompted Network,ADPN)。
通过一种双分支的模型结构设计,该方法能够自适应地建模音频和视觉之间的一致性和互补性,并利用一种基于课程学习的去噪优化策略进一步消除音频模态噪声的干扰,揭示了音频信号对于视频检索的重要性。
ADPN的总体结构如下图所示:
△图2:自适应双分支促进网络(ADPN)总体示意图
它主要包含三个设计:
1、双分支网络结构设计
考虑到音频的噪声更加明显,且对于TSG任务而言,音频通常存在更多冗余信息,因此音频和视觉模态的学习过程需要赋予不同的重要性,因此本文涉及了一个双分支的网络结构,在利用音频和视觉进行多模态学习的同时,对视觉信息进行强化。
具體地,請參見圖2(a),ADPN同時訓練一個只使用視覺訊息的分支(視覺分支)和一個同時使用視覺訊息和音訊訊息的分支(聯合分支)。
兩個分支擁有相似的結構,其中聯合分支增加了一個文字引導的線索挖掘單元(TGCM)建模文字-視覺-音訊模態互動。訓練過程兩個分支同時更新參數,推理階段使用聯合分支的結果作為模型預測結果。
2、文字引導的線索挖掘單元(Text-Guided Clues Miner,TGCM)
考慮到音訊與視覺模態的一致性與互補性是以給定的文本查詢作為條件的,因此研究人員設計了TGCM單元建模文本-視覺-音頻三模態間的交互。
參考圖2(b),TGCM分為」提取「和」傳播「兩個步驟。
首先以文字作為查詢條件,從視覺和音訊兩種模態中提取關聯的資訊並整合;然後再以視覺與音訊各自模態作為查詢條件,將整合的資訊透過注意力傳播到視覺與音頻各自的模態,最終再透過FFN進行特徵融合。
3、課程學習最佳化策略
研究人員觀察到音訊中含有噪聲,這會影響多模態學習的效果,於是他們將噪音的強度作為樣本難度的參考,引入課程學習(Curriculum Learning,CL)對優化過程進行去噪,參考圖2(c)。
他們根據兩個分支的預測輸出差異來評估樣本的難度,認為過於難的樣本大概率表示其音頻含有過多的噪聲而不適於TSG任務,於是根據樣本難度的評估分數對訓練過程的損失函數項進行重加權,旨在丟棄音訊的雜訊所造成的不良梯度。
(其餘的模型結構與訓練細節請參考原文。)
多項測試新SOTA
研究人員在TSG任務的benchmark數據集Charades-STA和ActivityNet Captions上進行實驗評估,與baseline方法的比較如表1所示。
ADPN方法能夠取得SOTA性能;特別地,相較其他利用音頻的TSG工作PMI-LOC、UMT,ADPN方法從音頻模態獲取了更顯著地性能提升,說明了ADPN方法利用音頻模態促進TSG的優越性。
△表1:Charades-STA與ActivityNet Captions上實驗結果
研究人員進一步透過消融實驗展示了ADPN中不同的設計單元的有效性,如表2所示。
△表2:Charades-STA上消融實驗
研究人員選取了一些樣本的預測結果進行了可視化,並且繪製了TGCM中”擷取「步驟中的」文字to 視覺「(T→V)和」文字to 音訊「(T→A)注意力權重分佈,如圖3所示。
可以觀察到音訊模態的引入改善了預測結果。從「Person laughs at it」的案例中,可以看到T→A的注意力權重分佈更接近Ground Truth,修正了T→V的權重分佈對模型預測的錯誤引導。
△圖3:案例展示
總的來說,本文研究人員提出了一種新穎的自適應雙分支促進網路 (ADPN)來解決音訊增強的視訊片段定位(ATSG)問題。
他們設計了一個雙分支的模型結構,結合訓練視覺分支和視聽聯合分支,以解決音訊和視覺模態之間的資訊差異。
他們也提出了一個文字引導的線索挖掘單元(TGCM),用文字語意作為指導來建模文字-音訊-視覺互動。
最後,研究人員設計了一種基於課程學習的最佳化策略來進一步消除音訊噪音,以自感知的方式評估樣本難度作為噪音強度的度量,並自適應地調整優化過程。
他們首先在ATSG中深入研究了音訊的特性,並更好地提升了音訊模態對效能的提升作用。
未來,他們希望為ATSG建立更合適的評估基準,以鼓勵在這一領域進行更深入的研究。
論文連結:https://dl.acm.org/doi/pdf/10.1145/3581783.3612504
##庫倉庫連結:https://github.com/hlchen23 /ADPN-MM
以上是清華大學新方法成功定位精確影片片段! SOTA被超越且已開源的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

C 中使用字符串流的主要步驟和注意事項如下:1.創建輸出字符串流並轉換數據,如將整數轉換為字符串。 2.應用於復雜數據結構的序列化,如將vector轉換為字符串。 3.注意性能問題,避免在處理大量數據時頻繁使用字符串流,可考慮使用std::string的append方法。 4.注意內存管理,避免頻繁創建和銷毀字符串流對象,可以重用或使用std::stringstream。
