基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段
引言
參考視訊目標分割(Referring VOS, RVOS)是一個新興起的任務,它旨在根據參考文本,從一段視訊序列中分割出文本所指述的對象。與半監督視訊目標分割相比,RVOS 只依賴抽象的語言描述而不是像素級的參考遮罩,為人機互動提供了更方便的選擇,因此受到了廣泛關注。
論文連結:https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf
#該研究的主要目的是為解決現有RVOS 任務中所面臨的兩大挑戰:
- ##如何將文本訊息、圖片資訊進行跨模態融合,從而既保持兩種模態間的尺度一致性,又能充分地將文本所提供的有用特徵參考充分融入圖片特徵中;
- 如何拋棄現有方法的二階段策略(即先在圖片層級逐幀得到粗略的結果,再利用該結果作為參考,經過增強時序資訊的結構細化得到最終預測),將整個RVOS 任務統一進單階段的框架中。
- 對此,研究提出了一種 跨模態元遷移的端對端RVOS 框架—YOFO
#只需單階段推理,即可實現利用參考文本資訊直接得到視訊目標的分割結果,在兩個主流的資料集——Ref-DAVIS2017 和Ref-Youtube-VOS 上獲得的效果超越了目前所有二階段方法;
提出了一個元遷移( Meta-Transfer)模組來增強時序訊息,從而實現了更聚焦於目標的特徵學習;提出了一個多尺度跨模態特徵挖掘(Multi-Scale Cross-Modal Feature Mining)模組,能夠充分融合語言、圖片中的有用特徵。
實作策略YOFO 框架主要流程如下:輸入圖片和文字先分別經過圖片編碼器和語言編碼器擷取特徵,接著在多尺度跨模態特徵挖掘模組進行融合。融合後的雙模態特徵在包含了記憶庫的元遷移模組中進行簡化,排除掉語言特徵中的冗餘訊息,同時能保存時序訊息來增強時間相關性,最後透過一個解碼器得到分割結果。
圖 1:YOFO 框架主要流程。 多尺度跨模態特徵挖掘模組:此模組透過逐級融合不同尺度的兩個模態特徵,能夠保持影像特徵所傳達的尺度訊息與語言特徵間的一致性,更重要的是保證了語言訊息不會在融合過程中被多尺度影像訊息所淡化淹沒。
圖 2:多尺度跨模態特徵挖掘模組。
優化的過程可以表達為以下目標函數:
其中,M 代表能夠儲存歷史資訊的記憶庫,W 代表不同位置的權重,能夠對特徵中不同的位置賦予不同的關注度,Y 代表儲存在記憶庫中的每個視訊幀的雙模態特徵。此最佳化過程盡可能地使元遷移函數具有重構雙模態特徵的能力,同時也使得整個框架能夠進行端到端的訓練。
訓練與測試:訓練時所使用的損失函數是lovasz loss,訓練集為兩個影片資料集Ref-DAVIS2017 、Ref-Youtube-VOS,並透過靜態資料集Ref-COCO 進行隨機仿射變換模擬視訊資料作為輔助訓練。元遷移的過程在訓練和預測時都要進行,整個網路在 1080ti 上的運行速度達到了 10FPS。
實驗結果
研究採用的方法在兩個主流RVOS 資料集(Ref-DAVIS2017 和Ref-Youtube-VOS)上都取得了優異的效果,量化指標及部分視覺化效果圖如下:
#圖3:在兩個主流資料集上的量化指標。
#圖 4:在 VOS 資料集上的視覺化效果。
#圖 5:YOFO 的其他視覺化效果展示。
研究也透過一系列的消融實驗以說明特徵挖掘模組(FM)以及元遷移模組(MT)的有效性。
圖 6:特徵挖掘模組(FM)以及元遷移模組(MT)的有效性。
此外,研究分別對使用了MT 模組和不使用MT 模組的解碼器輸出特徵進行了可視化,可以明顯地看出MT 模組能夠正確地捕捉到語言所描述的內容且對幹擾噪音進行過濾。
圖 7:使用 MT 模組前後的解碼器輸出特徵比較。 關於研究團隊
本論文由美圖影像研究院(MT Lab)和大連理工大學盧湖川團隊的研究者們共同提出。美圖影像研究院(MT Lab)是美圖公司致力於電腦視覺、機器學習、擴增實境、雲端運算等領域的演算法研究、工程開發和產品化落地的團隊,為美圖現有和未來的產品提供核心演算法支持,並透過前沿技術推動美圖產品發展,被稱為「美圖技術中樞」,曾先後多次參與CVPR、ICCV、ECCV 等計算機視覺國際頂級會議,並斬獲冠亞軍十餘項。
以上是基於跨模態元遷移,美圖&大連理工的參考視訊目標分割方法只需單階段的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

評估Java框架商業支援的性價比涉及以下步驟:確定所需的保障等級和服務等級協定(SLA)保證。研究支持團隊的經驗和專業知識。考慮附加服務,如昇級、故障排除和效能最佳化。權衡商業支援成本與風險緩解和提高效率。

PHP框架的學習曲線取決於語言熟練度、框架複雜性、文件品質和社群支援。與Python框架相比,PHP框架的學習曲線較高,而與Ruby框架相比,則較低。與Java框架相比,PHP框架的學習曲線中等,但入門時間較短。

輕量級PHP框架透過小體積和低資源消耗提升應用程式效能。其特點包括:體積小,啟動快,記憶體佔用低提升響應速度和吞吐量,降低資源消耗實戰案例:SlimFramework創建RESTAPI,僅500KB,高響應性、高吞吐量

根據基準測試,對於小型、高效能應用程序,Quarkus(快速啟動、低記憶體)或Micronaut(TechEmpower優異)是理想選擇。 SpringBoot適用於大型、全端應用程序,但啟動時間和記憶體佔用稍慢。

編寫清晰全面的文件對於Golang框架至關重要。最佳實踐包括:遵循既定文件風格,例如Google的Go程式設計風格指南。使用清晰的組織結構,包括標題、子標題和列表,並提供導覽。提供全面且準確的信息,包括入門指南、API參考和概念。使用程式碼範例說明概念和使用方法。保持文件更新,追蹤變更並記錄新功能。提供支援和社群資源,例如GitHub問題和論壇。建立實際案例,如API文件。

根據應用場景選擇最佳Go框架:考慮應用類型、語言特性、效能需求、生態系統。常見Go框架:Gin(Web應用)、Echo(Web服務)、Fiber(高吞吐量)、gorm(ORM)、fasthttp(速度)。實戰案例:建構RESTAPI(Fiber),與資料庫互動(gorm)。選擇框架:效能關鍵選fasthttp,靈活Web應用選Gin/Echo,資料庫互動選gorm。

在Go框架開發中,常見的挑戰及其解決方案是:錯誤處理:利用errors套件進行管理,並使用中間件集中處理錯誤。身份驗證和授權:整合第三方庫並建立自訂中間件來檢查憑證。並發處理:利用goroutine、互斥鎖和通道來控制資源存取。單元測試:使用gotest包,模擬和存根隔離,並使用程式碼覆蓋率工具確保充分性。部署和監控:使用Docker容器打包部署,設定資料備份,透過日誌記錄和監控工具追蹤效能和錯誤。

Go框架學習的迷思有以下5種:過度依賴框架,限制彈性。不遵循框架約定,程式碼難以維護。使用過時庫,帶來安全和相容性問題。過度使用包,混淆程式碼結構。忽視錯誤處理,導致意外行為和崩潰。
