目錄
通用視覺編碼器VideoPrism
設計架構,兩階段訓練法
實驗結果
零样本视频文本检索和分类
零样本视频字幕和质量检查
消融研究
参考资料:
首頁 科技週邊 人工智慧 GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA

Feb 26, 2024 am 09:58 AM
Google ai 數據集

AI視訊模型Sora爆紅之後,Meta、Google等大廠紛紛下場做研究,追趕OpenAI的步伐。

最近,來自Google團隊的研究人員提出了一種通用視訊編碼器——VideoPrism。

它能夠透過單一凍結模型,處理各種影片理解任務。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA圖片

論文網址:https://arxiv.org/pdf/2402.13217.pdf

例如,VideoPrism能夠將下面影片中吹蠟燭的人分類、定位出來。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA圖片

影片-文字檢索,根據文字內容,可以檢索影片中對應的內容。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA圖片

再比如,描述下面影片-一個小女孩正在玩積木。

也可以進行QA問答。

- 她放在綠色積木塊上方積木的是什麼顏色?

- 紫。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA圖片

研究人員在一個異構語料庫對VideoPrism進行了預訓練,包含3600萬高品質視訊字幕對和5.82億個影片剪輯,並附有雜訊並行文字(如ASR轉錄文字)。

值得一提的是,VideoPrism在33項視訊理解基準測試中,刷新了30項SOTA。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA圖片

通用視覺編碼器VideoPrism

目前,視訊基礎模型(ViFM)有巨大的潛力,可以在龐大的語料庫中解鎖新的能力。

雖然先前的研究在一般視訊理解方面取得了很大進展,但建立真正的「基礎視訊模型」仍然是一個難以實現的目標。

對此,Google推出了一種通用視覺編碼器——VideoPrism,旨在解決廣泛的視訊理解任務,包括分類、在地化、檢索、字幕和問答(QA)。

VideoPrism對CV資料集,以及神經科學和生態學等科學領域的CV任務進行了廣泛評估。

透過使用單一凍結模型,以最小的適應度實現了最先進的性能。

另外,Google研究人員稱,這種凍結編碼器設定同時遵循先前研究,並考慮了其實際實用性,以及高計算和微調視訊模型的成本。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA圖片

設計架構,兩階段訓練法

VideoPrism背後的設計概念如下。

預訓練資料是基礎模型(FM)的基礎,ViFM的理想預訓練數據,是世界上所有影片的代表性樣本。

這個樣本中,大多數影片都沒有描述內容的平行文字。

然而,如果訓在這樣的文本,它就能提供有關視頻空間的無價語義線索。

因此,Google的預訓練策略應主要專注於視訊模式,同時充分利用任何可用的視訊文字對。

在資料方面,Google研究人員透過匯集3,600萬高品質視訊字幕對,以及5.82億視訊剪輯與雜訊並行文字(如ASR轉錄、產生的字幕和檢索到的文字)來近似建立所需的預訓練語料庫。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA圖片

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA圖片

在建模方面,作者首先從所有不同品質的影片-文字對中對比學習語義影片嵌入。

隨後,利用廣泛的純視訊數據,對語義嵌入進行全局和標記提煉,改進了下文所述的遮罩視訊建模。

儘管在自然語言方面取得了成功,但由於原始視覺訊號缺乏語義,掩碼資料建模對於CV來說仍然具有挑戰性。

現有研究透過借用間接語意(如使用CLIP引導模型或分詞器,或隱含語意來應對這項挑戰)或隱性推廣它們(例如標記視覺patches),將高遮罩率和輕量級解碼器結合。

在上述想法的基礎上,Google團隊根據預訓練資料採用了兩階段方法。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA圖片

在第一階段,進行對比學習,使用所有視訊文字對,將視訊編碼器與文字編碼器對齊。

根據先前的研究,Google團隊最小化批次中所有視訊文字對的相似性得分,進行對稱交叉熵損失最小化。

並使用 CoCa 的圖像模型初始化空間編碼模組,並將WebLI納入預訓練中。

在計算損失之前,視訊編碼器的特徵會透過多頭注意力匯集池(MAP)進行聚合。

這一階段允許視訊編碼器從語言監督中學習豐富的視覺語義,由此產生的模型為第二階段訓練提供語義視訊嵌入。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA圖片

第二階段,繼續訓練編碼器,並進行了兩個改進:

- 模型需要根據未掩碼碼的輸入視訊patches,來預測第一階段的視訊級全域嵌入和token式嵌入

- 編碼器的輸出token在傳給解碼器之前,要進行隨機洗牌,以避免學習捷徑。

值得注意的是,研究人員的預訓練利用了兩個監督訊號:影片的文字描述,以及上下文自監督,使VideoPrism能夠在以外觀和動作為中心的任務上表現出色。

事實上,先前的研究表明,視訊字幕主要揭示外觀線索,而上下文我監督有助於學習動作。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA圖片

實驗結果

接下來,研究人員在廣泛的以視訊為中心的理解任務上評估VideoPrism,展現其能力和通用性。

主要分為以下四類:

(1) 一般僅視訊理解,包括分類和時空定位

(2) 零樣本視訊文字擷取

(3) 零樣本視訊字幕和品質檢查

(4) 科學領域的CV任務

分類和時空定位

表2顯示了VideoGLUE上的凍結骨幹的結果。

在所有資料集上,VideoPrism都大幅優於基準。此外,將VideoPrism的底層模型大小從ViT-B增加到ViT-g可以顯著提高效能。

值得注意的是,沒有基線方法能在所有基準測試中取得第二好的成績,這表明先前的方法可能是針對影片理解的某些方面而開發的。

而VideoPrism在這一廣泛的任務上持續改進。

這一結果表明,VideoPrism將各種視訊訊號整合到了一個編碼器中:多種粒度的語義、外觀與運動線索、時空資訊以及對不同視訊來源(如網路視訊與腳本表演)的魯棒性。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA图片

零样本视频文本检索和分类

表3和表4分别总结了视频文本检索和视频分类的结果。

VideoPrism的性能刷新多项基准,而且在具有挑战性的数据集上,VideoPrism 与之前的技术相比取得了非常显著的进步。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA图片

基础模型VideoPrism-B 的大多数结果,实际上优于现有的更大规模模型。

此外,VideoPrism与表4中使用域内数据和额外模态(例如音频)预训练的模型相当,甚至更好。这些在零样本检索和分类任务中的改进体现了VideoPrism强大的泛化能力。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA图片

零样本视频字幕和质量检查

表5和表6分别显示了,零样本视频字幕和QA的结果。

尽管模型架构简单且适配器参数数量较少,但最新模型仍具有竞争力,除VATEX外,在冻结视觉和语言模型的方法中名列前茅。

结果表明,VideoPrism编码器能够很好地推广到视频到语言的生成任务。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA图片

科学领域的CV任务

通用ViFM在所有评估中使用共享的冻结编码器,其性能与专门用于单个任务的特定领域模型相媲美。

尤其是,VideoPrism通常表现最好,并超越了具有基本规模模型的领域专家模型。

扩展到大规模模型可以进一步提高所有数据集的性能。这些结果表明ViFM有潜力显著加速不同领域的视频分析。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA

消融研究

图4显示了消融结果。值得注意的是,VideoPrism在SSv2上的持续改进表明,数据管理和模型设计工作在促进视频中的运动理解方面的有效性。

尽管对比基线已经在K400上取得了有竞争力的结果,但所提出的全局蒸馏和token洗牌进一步提高了准确性。

GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA图片

参考资料:

https://arxiv.org/pdf/2402.13217.pdf

https://blog.research.google/2024/02/videoprism-foundational-visual-encoder.html

以上是GoogleAI影片再出王炸!全能通用視覺編碼器VideoPrism,效能刷新30項SOTA的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
威爾R.E.P.O.有交叉遊戲嗎?
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

centos關機命令行 centos關機命令行 Apr 14, 2025 pm 09:12 PM

CentOS 關機命令為 shutdown,語法為 shutdown [選項] 時間 [信息]。選項包括:-h 立即停止系統;-P 關機後關電源;-r 重新啟動;-t 等待時間。時間可指定為立即 (now)、分鐘數 ( minutes) 或特定時間 (hh:mm)。可添加信息在系統消息中顯示。

如何檢查CentOS HDFS配置 如何檢查CentOS HDFS配置 Apr 14, 2025 pm 07:21 PM

檢查CentOS系統中HDFS配置的完整指南本文將指導您如何有效地檢查CentOS系統上HDFS的配置和運行狀態。以下步驟將幫助您全面了解HDFS的設置和運行情況。驗證Hadoop環境變量:首先,確認Hadoop環境變量已正確設置。在終端執行以下命令,驗證Hadoop是否已正確安裝並配置:hadoopversion檢查HDFS配置文件:HDFS的核心配置文件位於/etc/hadoop/conf/目錄下,其中core-site.xml和hdfs-site.xml至關重要。使用

CentOS上GitLab的備份方法有哪些 CentOS上GitLab的備份方法有哪些 Apr 14, 2025 pm 05:33 PM

CentOS系統下GitLab的備份與恢復策略為了保障數據安全和可恢復性,CentOS上的GitLab提供了多種備份方法。本文將詳細介紹幾種常見的備份方法、配置參數以及恢復流程,幫助您建立完善的GitLab備份與恢復策略。一、手動備份利用gitlab-rakegitlab:backup:create命令即可執行手動備份。此命令會備份GitLab倉庫、數據庫、用戶、用戶組、密鑰和權限等關鍵信息。默認備份文件存儲於/var/opt/gitlab/backups目錄,您可通過修改/etc/gitlab

CentOS上PyTorch的GPU支持情況如何 CentOS上PyTorch的GPU支持情況如何 Apr 14, 2025 pm 06:48 PM

在CentOS系統上啟用PyTorchGPU加速,需要安裝CUDA、cuDNN以及PyTorch的GPU版本。以下步驟將引導您完成這一過程:CUDA和cuDNN安裝確定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA顯卡支持的CUDA版本。例如,您的MX450顯卡可能支持CUDA11.1或更高版本。下載並安裝CUDAToolkit:訪問NVIDIACUDAToolkit官網,根據您顯卡支持的最高CUDA版本下載並安裝相應的版本。安裝cuDNN庫:前

docker原理詳解 docker原理詳解 Apr 14, 2025 pm 11:57 PM

Docker利用Linux內核特性,提供高效、隔離的應用運行環境。其工作原理如下:1. 鏡像作為只讀模板,包含運行應用所需的一切;2. 聯合文件系統(UnionFS)層疊多個文件系統,只存儲差異部分,節省空間並加快速度;3. 守護進程管理鏡像和容器,客戶端用於交互;4. Namespaces和cgroups實現容器隔離和資源限制;5. 多種網絡模式支持容器互聯。理解這些核心概念,才能更好地利用Docker。

centos安裝mysql centos安裝mysql Apr 14, 2025 pm 08:09 PM

在 CentOS 上安裝 MySQL 涉及以下步驟:添加合適的 MySQL yum 源。執行 yum install mysql-server 命令以安裝 MySQL 服務器。使用 mysql_secure_installation 命令進行安全設置,例如設置 root 用戶密碼。根據需要自定義 MySQL 配置文件。調整 MySQL 參數和優化數據庫以提升性能。

CentOS下GitLab的日誌如何查看 CentOS下GitLab的日誌如何查看 Apr 14, 2025 pm 06:18 PM

CentOS系統下查看GitLab日誌的完整指南本文將指導您如何查看CentOS系統中GitLab的各種日誌,包括主要日誌、異常日誌以及其他相關日誌。請注意,日誌文件路徑可能因GitLab版本和安裝方式而異,若以下路徑不存在,請檢查GitLab安裝目錄及配置文件。一、查看GitLab主要日誌使用以下命令查看GitLabRails應用程序的主要日誌文件:命令:sudocat/var/log/gitlab/gitlab-rails/production.log此命令會顯示produc

CentOS上PyTorch的分佈式訓練如何操作 CentOS上PyTorch的分佈式訓練如何操作 Apr 14, 2025 pm 06:36 PM

在CentOS系統上進行PyTorch分佈式訓練,需要按照以下步驟操作:PyTorch安裝:前提是CentOS系統已安裝Python和pip。根據您的CUDA版本,從PyTorch官網獲取合適的安裝命令。對於僅需CPU的訓練,可以使用以下命令:pipinstalltorchtorchvisiontorchaudio如需GPU支持,請確保已安裝對應版本的CUDA和cuDNN,並使用相應的PyTorch版本進行安裝。分佈式環境配置:分佈式訓練通常需要多台機器或單機多GPU。所

See all articles