復旦大學聯合華為諾亞提出VidRD框架,實現迭代式的高品質視訊生成
復旦大學聯合華為諾亞方舟實驗室的研究者基於影像擴散模型(LDM)提出了一種迭代式產生高品質視訊的方案 ——VidRD (Reuse and Diffuse)。該方案旨在對生成視訊的品質和序列長度上進行突破,實現了高品質、長序列的可控視訊生成。有效減少了產生視訊幀間的抖動問題,具有較高的研究和實用價值,為當前火熱的AIGC社群貢獻了一份力量。
潛在擴散模型(LDM)是一種基於去噪自編碼器(Denoising Autoencoder)的生成模型,它可以透過逐步去除雜訊來從隨機初始化的資料生成高品質的樣本。但由於在模型訓練和推理過程中都存在著計算和記憶體的限制,一個單獨的 LDM 通常只能產生數量非常有限的視訊幀。儘管現有的工作嘗試使用單獨的預測模型來產生更多的視訊幀,但這也會帶來額外的訓練成本並產生幀級的抖動。
在本文中,受到潛在擴散模型(LDMs)在影像合成方面的顯著成功的啟發,提出了一個名為「Reuse and Diffuse」的框架,簡稱VidRD。該框架可以在 LDM 已經產生的少部分視訊幀之後,產生更多的視訊幀,從而實現迭代式地產生更長、更高品質以及多樣化的視訊內容。 VidRD 載入了預先訓練的圖像 LDM 模型進行高效訓練,並使用添加有時序資訊的 U-Net 網路進行雜訊移除。
- #論文標題:Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation
- 論文網址:https://arxiv.org/abs/2309.03549
- 專案首頁:https://anonymous0x233.github.io/ ReuseAndDiffuse/
本文的主要貢獻如下:
- 為了產生更加平滑的視頻,本文基於時序感知的LDM 模型提出了一種迭代式的「text-to-video」 生成方法。透過重複使用已經產生視訊畫面的潛空間特徵以及每次都遵循先前的擴散過程,該方法可以迭代式地產生更多的視訊幀。
- 本文設計了一套資料處理方法來產生高品質的 「文字 - 影片」 資料集。針對現有的動作辨識資料集,本文利用多模態大語言模型為其中的影片賦予文字描述。針對影像數據,本文採用隨機縮放和平移的方法來產生更多的影片訓練樣本。
- 在UCF-101 資料集上,本文驗證了FVD 和IS 兩種評估指標以及視覺化結果,定量和定性的結果顯示:相較於現有方法,VidRD 模型均取得了更好的效果。
方法介紹
#圖1.本文提出的VidRD 影片產生框架示意圖
本文認為採用預先訓練的影像LDM 作為高品質視訊合成的LDM 訓練起點是一種高效且明智的選擇。同時,這一觀點得到了 [1, 2] 等研究工作的進一步支持。在這樣的背景下,本文精心設計的模型是基於預先訓練的穩定擴散模型構建,充分借鑒並繼承了其優良的特性。這其中包括一個用於精準潛在表示的變分自編碼器(VAE)和一個強大的去噪網路 U-Net。圖 1 以清晰、直觀的方式展示了該模型的整體架構。
在本文的模型設計中,一個顯著的特點是對預訓練模型權重的充分利用。具體來說,大部分網路層,包括 VAE 的各組件和 U-Net 的上採樣、下採樣層,均使用穩定擴散模型的預訓練權重進行初始化。這項策略不僅能顯著加速模型的訓練過程,還能從一開始就確保模型表現出良好的穩定性和可靠性。本文的模型可以在一個初始的包含少量幀的視訊片段的條件下,透過重複使用原始的潛在特徵和模仿先前的擴散過程,迭代地產生額外的幀。此外,對於用於在像素空間和潛在空間之間進行轉換的自編碼器,本文在其解碼器中註入了和時序相關的網路層,並對這些層進行了微調,以提高時間一致性。
為了確保視訊幀間的連續性,本文在模型中加入了 3D Temp-conv 和 Temp-attn 層。 Temp-conv 層緊接在 3D ResNet 後面,該結構可實現 3D 卷積操作,以捕捉空間和時間的關聯,進而理解視訊序列匯總的動態變化和連續性。 Temp-Attn 結構與 Self-attention 相似,用於分析和理解視訊序列中的幀間關係,使模型能夠精確地同步幀間的運行資訊。這些參數在訓練時隨機初始化,旨在為模型提供時序結構上的理解和編碼。此外,為了適應此模型結構,資料的輸入也做了對應的適應與調整。
圖2. 本文提出的高品質「文字- 影片」訓練資料集建構方法
為了訓練VidRD 模型,本文提出了一種構建大規模“文本- 視頻” 訓練數據集的方法,如圖2 所示,該方法可以處理“文本- 圖像” 數據和無描述的“文本- 視頻”數據。此外,為了實現高品質的影片生成,本文也嘗試對訓練資料進行了去水印操作。
儘管當前市場上高品質的影片描述資料集相對稀缺,但存在大量的影片分類資料集。這些資料集擁有豐富的影片內容,每段影片都伴隨一個分類標籤。如 Moments-In-Time、Kinetics-700 和 VideoLT 就是三個代表性的大規模視訊分類資料集。 Kinetics-700 涵蓋了 700 個人類動作類別,包含超過 60 萬的影片片段。 Moments-In-Time 則囊括了 339 個動作類別,總共有超過一百萬的影片段落。而 VideoLT 則包含了 1004 個類別和 25 萬段未經編輯的長影片。
為了充分利用現有的影片數據,本文嘗試對這些影片進行自動化地更加詳細的標註。本文採用了 BLIP-2、MiniGPT4 等多模態大語言模型,透過針對影片中的關鍵幀,結合其原始的分類標籤,本文設計了許多 Prompts,以透過模型問答的方式產生標註。這種方法不僅增強了視訊資料的語音訊息,而且可以為現有沒有詳細描述的視訊帶來更全面、細緻的視訊描述,從而實現了更加豐富的視訊標籤生成,以幫助VidRD 模型帶來更好的訓練效果。
此外,針對現有的非常豐富的圖像數據,本文也設計了詳細的方法將圖像數據轉換為視頻格式以進行訓練。具體操作為在影像的不同位置、以不同的速度進行平移和縮放,從而為每個影像賦予獨特的動態展現形式,模擬現實生活中移動相機來捕捉靜止物體的效果。透過這樣的方法,可以有效利用現有的影像資料進行視訊訓練。
效果顯示
描述文字分別為:「Timelapse at the snow land with aurora in the sky.」、「A candle is burning .」、「An epic tornado attacking above a glowing city at night.」、以及「Aerial view of a white sandy beach on the shores of a beautiful sea.」。更多視覺化效果可見項目首頁。
圖3. 產生效果與現有的方法進行視覺化對比
最後,如圖3 所示,分別為本文產生結果與現有方法Make-A-Video [3] 和Imagen Video [4] 的視覺化比較,展現了本文模型品質較好的生成效果。
以上是復旦大學聯合華為諾亞提出VidRD框架,實現迭代式的高品質視訊生成的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備,留下損壞的資料區塊,只移動好的資料區塊。 ddreasue是一種強大的恢復工具,完全自動化,因為它在恢復操作期間不需要任何干擾。此外,由於有了ddasue地圖文件,它可以隨時停止和恢復。 DDREASE的其他主要功能如下:它不會覆寫恢復的數據,但會在迭代恢復的情況下填補空白。但是,如果指示工具明確執行此操作,則可以將其截斷。將資料從多個檔案或區塊還原到單

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高
