華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!
近兩年來,隨著大規模圖文資料集如LAION-5B的開放,圖片生成領域湧現出了一系列效果驚人的方法,如Stable Diffusion、DALL-E 2、ControlNet和Composer 。這些方法的出現使得圖片生成領域取得了巨大的突破和進展。圖片生成領域可謂在過去短短兩年內取得了快速發展。
然而,影片產生仍然面臨著巨大的挑戰。首先,與圖片生成相比,影片生成需要處理更高維度的數據,並且需要考慮到額外的時間維度,這帶來了時序建模的問題。為了驅動時序動態的學習,我們需要更多的視訊-文字對資料。然而,對影片進行準確的時序標註非常昂貴,這限制了視訊-文字資料集的規模。目前,現有的WebVid10M影片資料集僅包含10.7M個影片-文字對,與LAION-5B圖片資料集相比,資料規模相差甚遠。這嚴重限制了視訊生成模型規模化擴展的可能性。
為解決上述問題,華中科技大學、阿里巴巴集團、浙江大學和螞蟻集團聯合研究團隊於近期發布了TF-T2V 視訊方案:
#論文網址:https://arxiv.org/abs/2312.15770
項目首頁:https://tf-t2v.github.io/
即將公開原始碼:https://github.com/ali-vilab/i2vgen-xl (VGen 專案) 。
該方案另闢蹊徑,提出了基於大規模無文字標註視訊資料進行視訊生成,能夠學習豐富的運動動態。
先來看看TF-T2V 的影片產生效果:
文生影片任務
提示詞:產生在冰雪覆蓋的土地上有一隻冰霜般的大生物的影片。
提示字:產生一隻卡通蜜蜂的動畫影片。
提示:產生包含一輛未來幻想摩托車的影片。
提示詞:產生一個小男孩快樂微笑的影片。
提示字:產生一個老人覺得頭痛的影片。
#組合式影片產生任務
給定文字與深度圖或文字與素描草圖,TF-T2V 能夠進行可控的視訊生成:
也可以進行高解析度視訊合成:
半監督設定
在半監督設定下的TF-T2V 方法還可以產生符合運動文本描述的視頻,如「人從右往左跑」。
方法簡介
TF-T2V 的核心思想是將模型分為運動分支和表觀分支,運動分支用於建模運動動態,表觀分支用於學習視覺表觀資訊。這兩個分支進行聯合訓練,最終可以實現透過文字驅動視訊生成。
為了提升產生影片的時序一致性,作者團隊也提出了時序一致性損失,並明確地學習影片影格之間的連續性。
值得一提的是,TF-T2V 是一種通用的框架,不僅適用於文生視訊任務,還能應用於組合式影片產生任務,如sketch-to-video、video inpainting、first frame-to-video 等。
具體細節和更多實驗結果可以參考原論文或專案首頁。
此外,作者團隊也將TF-T2V 作為教師模型,利用一致性蒸餾技術得到了VideoLCM 模型:
##論文網址:https://arxiv.org/abs/2312.09109
專案首頁:https://tf-t2v.github.io/
即將公開原始碼:https://github.com/ali-vilab/i2vgen-xl (VGen 專案)。
不同於先前視訊產生方法需要大約50 步DDIM 去噪步驟,基於TF-T2V 的VideoLCM 方法可以只需要進行大約4 步推理去噪就產生高保真的視頻,大大提升了視訊生成的效率。
一起來看看VideoLCM 進行4 步驟去雜訊推理的結果:
##具體細節和更多實驗結果可以參考VideoLCM 原始論文或專案首頁。
#########總而言之,TF-T2V 方案為影片生成領域帶來了新思路,克服了資料集規模和標註難題帶來的挑戰。利用大規模的無文字標註視頻數據,TF-T2V 能夠產生高品質的視頻,並應用於多種視訊生成任務。這項創新將推動視訊生成技術的發展,為各行各業帶來更廣闊的應用場景和商業機會。 ######以上是華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

隨著短影片平台的興起,抖音成為了大家日常生活中不可或缺的一部分。在抖音上,我們可以看到來自世界各地的有趣影片。有些人喜歡發布他人的視頻,這就引發了一個問題:抖音發布他人視頻侵權嗎?本文將圍繞這個問題展開討論,告訴大家怎樣剪輯影片不算侵權,以及如何避免侵權問題。一、抖音發布他人影片侵權嗎?根據我國《著作權法》的規定,未經著作權人許可,擅自使用其作品,屬於侵權行為。因此,在抖音上發布他人視頻,如果未經原作者或著作權人許可,就屬於侵權行為。二、怎樣剪輯影片不算侵權? 1.使用公共領域或授權的內容:公共

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備,留下損壞的資料區塊,只移動好的資料區塊。 ddreasue是一種強大的恢復工具,完全自動化,因為它在恢復操作期間不需要任何干擾。此外,由於有了ddasue地圖文件,它可以隨時停止和恢復。 DDREASE的其他主要功能如下:它不會覆寫恢復的數據,但會在迭代恢復的情況下填補空白。但是,如果指示工具明確執行此操作,則可以將其截斷。將資料從多個檔案或區塊還原到單

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

抖音,這個全民短視頻平台,不僅讓我們在閒暇時間享受到各種有趣、新奇的短視頻,同時也給了我們一個展示自我、實現價值的舞台。那麼,如何在抖音發布影片中賺取收益呢?本文將詳細解答這個問題,幫助你在抖音上賺取更多的收益。一、抖音發布影片如何賺收益?發布影片在抖音上獲得一定的播放量後,可以有機會參與廣告分成計畫。這項收益方式是抖音用戶最熟悉的之一,也是許多創作者主要的收入來源。抖音根據帳號權重、影片內容以及觀眾回饋等多種因素來決定是否提供廣告分成的機會。抖音平台允許觀眾透過發送禮物來支持自己喜歡的創作者,

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

隨著短影片平台的興起,小紅書成為了許多人分享生活、表達自我、獲取流量的平台。在這個平台上,發布影片作品是一種非常受歡迎的互動方式。那麼,如何發布小紅書影片作品呢?一、如何發布小紅書影片作品?首先,確保準備好一段適合分享的影片內容。你可以利用手機或其他攝影設備拍攝,需要注意畫質和聲音的清晰度。 2.剪輯影片:為了讓作品更具吸引力,可以剪輯影片。可使用專業的影片剪輯軟體,如抖音、快手等,加入濾鏡、音樂、字幕等元素。 3.選擇封面:封面是吸引用戶點擊的關鍵,選擇一張清晰、有趣的圖片作為封面,讓

1.先打開手機微博,點選右下角【我】(如圖所示)。 2、接著點選右上角【齒輪】打開設定(如圖所示)。 3.然後找到並開啟【通用設定】(如圖所示)。 4.隨後進入【影片隨著】選項(如圖所示)。 5.再開啟【影片上傳清晰度】設定(如圖)。 6.最後選擇【原畫質】就能不壓縮了(如圖)。

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱
