目錄
方法介紹
實驗
首頁 科技週邊 人工智慧 CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術

CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術

Mar 25, 2024 am 09:16 AM
影片 ai 排列

视频理解的核心目标是准确理解时空表示,但面临两个主要挑战:短视频片段中存在大量时空冗余,并且复杂的时空依赖关系。三维卷积神经网络(CNN)和视频Transformer曾在解决其中一个挑战方面表现出色,但它们在同时应对这两个挑战时存在一定不足。UniFormer尝试结合这两种方法的优势,但在建模长视频方面遇到了困难。

S4、RWKV 和 RetNet 等低成本方案在自然语言处理领域的出现,为视觉模型开辟了新的途径。Mamba 凭借其选择性状态空间模型 (SSM) 脱颖而出,实现了在保持线性复杂性的同时促进长期动态建模的平衡。这种创新推动了它在视觉任务中的应用,正如 Vision Mamba 和 VMamba 所证实的那样,它们利用多方向 SSM 来增强二维图像处理。这些模型在性能上与基于注意力的架构相媲美,同时显著减少了内存使用量。

鉴于视频产生的序列本身更长,一个自然的问题是:Mamba 能否很好地用于视频理解?

启发于 Mamba,本文介绍了 VideoMamba,这是专门为视频理解定制的 SSM(选择性状态空间模型)。VideoMamba 借鉴了 Vanilla ViT 的设计理念,将卷积和注意力机制相结合。它提供了一种线性复杂度的方式,用于动态时空背景建模,尤其适用于处理高分辨率长视频。评估主要集中在 VideoMamba 的四个关键能力上:

在视觉领域的可扩展性:本文对 VideoMamba 的可扩展性进行了检验,发现纯 Mamba 模型在不断扩展时往往容易过拟合,本文引入一种简单而有效的自蒸馏策略,使得随着模型和输入尺寸的增加,VideoMamba 能够在不需要大规模数据集预训练的情况下实现显著的性能增强。

对短期动作识别的敏感性:本文的分析扩展到评估 VideoMamba 准确区分短期动作的能力,特别是那些具有细微动作差异的动作,如打开和关闭。研究结果显示,VideoMamba 在现有基于注意力的模型上表现出了优异的性能。更重要的是,它还适用于掩码建模,进一步增强了其时间敏感性。

在长视频理解方面的优越性:本文评估了 VideoMamba 在解释长视频方面的能力。通过端到端训练,它展示了与传统基于特征的方法相比的显著优势。值得注意的是,VideoMamba 在 64 帧视频中的运行速度比 TimeSformer 快 6 倍,并且对 GPU 内存需求减少了 40 倍 (如图 1 所示)。

CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術

與其他模態的兼容性:最後,本文評估了 VideoMamba 與其他模態的適應性。在視訊文字檢索中的結果顯示,與 ViT 相比,其表現得到了改善,特別是在具有複雜情景的長影片中。這凸顯了其穩健性和多模態整合能力。

本研究的深入實驗揭示了VideoMamba在短期(K400和SthSthV2)和長期(Breakfast,COIN和LVU)視訊內容理解方面的巨大潛力。 VideoMamba表現出高效性和準確性,預示著它將成為長視訊理解領域的關鍵組成部分。為了促進未來研究的進展,所有的程式碼和模型都已經開源。

CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術


  • #論文網址:https://arxiv.org/pdf/2403.06977.pdf
  • 專案網址:https://github.com/OpenGVLab/VideoMamba
  • 論文標題:VideoMamba: State Space Model for Efficient Video Understanding

方法介紹

下圖2a 顯示了Mamba 模組的細節。

CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術


#圖 3 說明了 VideoMamba 的整體框架。本文首先使用3D 卷積(即1×16×16) 將輸入視訊Xv ∈ R 3×T ×H×W 投影到L 個非重疊的時空補丁Xp ∈ R L×C,其中L=t×h×w (t=T,h= H 16, 和w= W 16)。輸入到接下來的VideoMamba 編碼器的token 序列是CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術

CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術

#時空掃描:為了將B-Mamba 層應用於時空輸入,本文圖4 中將原始的2D 掃描擴展為不同的雙向3D 掃描:

(a) 空間優先,透過位置組織空間token,然後逐幀堆疊它們;

(b) 時間優先,依影格排列時間token,然後沿著空間維度堆疊;

(c) 時空混合,既有空間優先又有時間優先,其中v1 執行其中的一半,v2 執行全部(2 倍計算量)。

圖 7a 中的實驗表明,空間優先的雙向掃描是最有效但最簡單的。由於 Mamba 的線性複雜度,本文的 VideoMamba 能夠有效率地處理高解析度的長視訊。

CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術

#

對於 B-Mamba 層中的 SSM,本文採用與 Mamba 相同的預設超參數設置,將狀態維度和擴展比例分別設為 16 和 2。參考 ViT 的做法,本文調整了深度和嵌入維度,以創建與表 1 中相當大小的模型,包括 VideoMamba-Ti,VideoMamba-S 和 VideoMamba-M。然而實驗中觀察到較大的 VideoMamba 在實驗中往往容易過度擬合,導致像圖 6a 所示的次優性能。這種過擬合問題不僅存在於本文提出的模型中,也存在於 VMamba 中,其中 VMamba-B 的最佳效能是在總訓練週期的四分之三時達到的。為了對抗較大 Mamba 模型的過度擬合問題,本文引入了一種有效的自蒸餾策略,該策略使用較小且訓練良好的模型作為「教師」,來引導較大的「學生」模型的訓練。如圖 6a 所示的結果表明,這種策略導致了預期的更好的收斂性。

CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術

CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術

關於遮罩策略,本文提出了不同的行遮罩技術,如圖5 所示,專門針對B-Mamba 區塊對連續token 的偏好。

CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術

實驗

#表 2 展示了在 ImageNet-1K 資料集上的結果。值得注意的是,VideoMamba-M 在效能上顯著優於其他各向同性架構,與 ConvNeXt-B 相比提高了 0.8%,與 DeiT-B 相比提高了 2.0%,同時使用的參數更少。 VideoMamba-M 在針對增強效能採用分層特徵的非各向同性主幹結構中也表現出色。鑑於 Mamba 在處理長序列方面的效率,本文透過增加解析度進一步提高了效能,僅使用 74M 參數就實現了 84.0% 的 top-1 準確率。

CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術

表 3 和表 4 列出了短期影片資料集上的結果。 (a) 監督學習:與純注意力方法相比,基於SSM 的VideoMamba-M 獲得了明顯的優勢,在與場景相關的K400 和與時間相關的Sth-SthV2 資料集上分別比ViViT-L 高出2.0% 和3.0%。這種改進伴隨著顯著降低的計算需求和更少的預訓練資料。 VideoMamba-M 的結果與 SOTA UniFormer 不相上下,後者在非各向同性結構中巧妙地將卷積與注意力進行了整合。 (b) 自我監督學習:在遮罩預訓練下,VideoMamba 的表現超越了以其精細動作技能而聞名的 VideoMAE。這項成就突顯了本文基於純 SSM 的模型在高效有效地理解短期視訊方面的潛力,強調了它適用於監督學習和自監督學習範式的特徵。

CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術

CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術

如图 1 所示,VideoMamba 的线性复杂度使其非常适合用于与长时长视频的端到端训练。表 6 和表 7 中的比较突显了 VideoMamba 在这些任务中相对于传统基于特征的方法的简单性和有效性。它带来了显著的性能提升,即使在模型尺寸较小的情况下也能实现 SOTA 结果。VideoMamba-Ti 相对于使用 Swin-B 特征的 ViS4mer 表现出了显著的 6.1% 的增长,并且相对于 Turbo 的多模态对齐方法也有 3.0% 的提升。值得注意的是,结果强调了针对长期任务的规模化模型和帧数的积极影响。在 LVU 提出的多样化且具有挑战性的九项任务中,本文采用端到端方式对 VideoMamba-Ti 进行微调,取得了与当前 SOTA 方法相当或优秀的结果。这些成果不仅突显了 VideoMamba 的有效性,也展示了它在未来长视频理解方面的巨大潜力。

CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術

CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術

如表 8 所示,在相同的预训练语料库和类似的训练策略下,VideoMamba 在零样本视频检索性能上优于基于 ViT 的 UMT。这突显了 Mamba 在处理多模态视频任务中与 ViT 相比具有可比较的效率和可扩展性。值得注意的是,对于具有更长视频长度 (例如 ANet 和 DiDeMo) 和更复杂场景 (例如 LSMDC) 的数据集,VideoMamba 表现出了显著的改进。这表明了 Mamba 在具有挑战性的多模态环境中,甚至在需求跨模态对齐的情况下的能力。

CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術

更多研究细节,可参考原论文。

以上是CNN、Transformer、Uniformer之外,我們終於有了更有效率的影片理解技術的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Debian郵件服務器防火牆配置技巧 Debian郵件服務器防火牆配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian郵件服務器的防火牆是確保服務器安全性的重要步驟。以下是幾種常用的防火牆配置方法,包括iptables和firewalld的使用。使用iptables配置防火牆安裝iptables(如果尚未安裝):sudoapt-getupdatesudoapt-getinstalliptables查看當前iptables規則:sudoiptables-L配置

Debian郵件服務器SSL證書安裝方法 Debian郵件服務器SSL證書安裝方法 Apr 13, 2025 am 11:39 AM

在Debian郵件服務器上安裝SSL證書的步驟如下:1.安裝OpenSSL工具包首先,確保你的系統上已經安裝了OpenSSL工具包。如果沒有安裝,可以使用以下命令進行安裝:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私鑰和證書請求接下來,使用OpenSSL生成一個2048位的RSA私鑰和一個證書請求(CSR):openss

Debian OpenSSL如何進行數字簽名驗證 Debian OpenSSL如何進行數字簽名驗證 Apr 13, 2025 am 11:09 AM

在Debian系統上使用OpenSSL進行數字簽名驗證,可以按照以下步驟操作:準備工作安裝OpenSSL:確保你的Debian系統已經安裝了OpenSSL。如果沒有安裝,可以使用以下命令進行安裝:sudoaptupdatesudoaptinstallopenssl獲取公鑰:數字簽名驗證需要使用簽名者的公鑰。通常,公鑰會以文件的形式提供,例如public_key.pe

centos關機命令行 centos關機命令行 Apr 14, 2025 pm 09:12 PM

CentOS 關機命令為 shutdown,語法為 shutdown [選項] 時間 [信息]。選項包括:-h 立即停止系統;-P 關機後關電源;-r 重新啟動;-t 等待時間。時間可指定為立即 (now)、分鐘數 ( minutes) 或特定時間 (hh:mm)。可添加信息在系統消息中顯示。

Debian OpenSSL如何防止中間人攻擊 Debian OpenSSL如何防止中間人攻擊 Apr 13, 2025 am 10:30 AM

在Debian系統中,OpenSSL是一個重要的庫,用於加密、解密和證書管理。為了防止中間人攻擊(MITM),可以採取以下措施:使用HTTPS:確保所有網絡請求使用HTTPS協議,而不是HTTP。 HTTPS使用TLS(傳輸層安全協議)加密通信數據,確保數據在傳輸過程中不會被竊取或篡改。驗證服務器證書:在客戶端手動驗證服務器證書,確保其可信。可以通過URLSession的委託方法來手動驗證服務器

Debian Hadoop日誌管理怎麼做 Debian Hadoop日誌管理怎麼做 Apr 13, 2025 am 10:45 AM

在Debian上管理Hadoop日誌,可以遵循以下步驟和最佳實踐:日誌聚合啟用日誌聚合:在yarn-site.xml文件中設置yarn.log-aggregation-enable為true,以啟用日誌聚合功能。配置日誌保留策略:設置yarn.log-aggregation.retain-seconds來定義日誌的保留時間,例如保留172800秒(2天)。指定日誌存儲路徑:通過yarn.n

索尼證實PS5 Pro使用特製GPU 與AMD合作研發AI可能性 索尼證實PS5 Pro使用特製GPU 與AMD合作研發AI可能性 Apr 13, 2025 pm 11:45 PM

SonyInteractiveEntertainment(SIE,索尼互动娱乐)首席架构师MarkCerny公开更多次世代主机PlayStation5Pro(PS5Pro)硬体细节,包括性能升级的AMDRDNA2.x架构GPU,以及与AMD合作代号「Amethyst」的机器学习/人工智慧计划。PS5Pro性能提升的重点仍集中在更强大的GPU、先进的光线追踪与AI驱动的PSSR超解析度功能等3大支柱上。GPU採用客制化的AMDRDNA2架构,索尼将其命名为RDNA2.x,它拥有部分RDNA3架构才

Debian OpenSSL如何配置HTTPS服務器 Debian OpenSSL如何配置HTTPS服務器 Apr 13, 2025 am 11:03 AM

在Debian系統上配置HTTPS服務器涉及幾個步驟,包括安裝必要的軟件、生成SSL證書、配置Web服務器(如Apache或Nginx)以使用SSL證書。以下是一個基本的指南,假設你使用的是ApacheWeb服務器。 1.安裝必要的軟件首先,確保你的系統是最新的,並安裝Apache和OpenSSL:sudoaptupdatesudoaptupgradesudoaptinsta

See all articles