目錄
方法簡介
首頁 科技週邊 人工智慧 華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

Jan 11, 2024 pm 04:12 PM
影片 數據

近兩年來,隨著大規模圖文資料集如LAION-5B的開放,圖片生成領域湧現出了一系列效果驚人的方法,如Stable Diffusion、DALL-E 2、ControlNet和Composer 。這些方法的出現使得圖片生成領域取得了巨大的突破和進展。圖片生成領域可謂在過去短短兩年內取得了快速發展。

然而,影片產生仍然面臨著巨大的挑戰。首先,與圖片生成相比,影片生成需要處理更高維度的數據,並且需要考慮到額外的時間維度,這帶來了時序建模的問題。為了驅動時序動態的學習,我們需要更多的視訊-文字對資料。然而,對影片進行準確的時序標註非常昂貴,這限制了視訊-文字資料集的規模。目前,現有的WebVid10M影片資料集僅包含10.7M個影片-文字對,與LAION-5B圖片資料集相比,資料規模相差甚遠。這嚴重限制了視訊生成模型規模化擴展的可能性。

為解決上述問題,華中科技大學、阿里巴巴集團、浙江大學和螞蟻集團聯合研究團隊於近期發布了TF-T2V 視訊方案:

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!


#論文網址:https://arxiv.org/abs/2312.15770

項目首頁:https://tf-t2v.github.io/

即將公開原始碼:https://github.com/ali-vilab/i2vgen-xl (VGen 專案) 。

該方案另闢蹊徑,提出了基於大規模無文字標註視訊資料進行視訊生成,能夠學習豐富的運動動態。

先來看看TF-T2V 的影片產生效果:

文生影片任務

提示詞:產生在冰雪覆蓋的土地上有一隻冰霜般的大生物的影片。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

提示字:產生一隻卡通蜜蜂的動畫影片。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

提示:產生包含一輛未來幻想摩托車的影片。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

提示詞:產生一個小男孩快樂微笑的影片。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

提示字:產生一個老人覺得頭痛的影片。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

#組合式影片產生任務

給定文字與深度圖或文字與素描草圖,TF-T2V 能夠進行可控的視訊生成:

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

也可以進行高解析度視訊合成:

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!


華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

#

半監督設定

在半監督設定下的TF-T2V 方法還可以產生符合運動文本描述的視頻,如「人從右往左跑」。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

方法簡介

TF-T2V 的核心思想是將模型分為運動分支和表觀分支,運動分支用於建模運動動態,表觀分支用於學習視覺表觀資訊。這兩個分支進行聯合訓練,最終可以實現透過文字驅動視訊生成。

為了提升產生影片的時序一致性,作者團隊也提出了時序一致性損失,並明確地學習影片影格之間的連續性。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

值得一提的是,TF-T2V 是一種通用的框架,不僅適用於文生視訊任務,還能應用於組合式影片產生任務,如sketch-to-video、video inpainting、first frame-to-video 等。

具體細節和更多實驗結果可以參考原論文或專案首頁。

此外,作者團隊也將TF-T2V 作為教師模型,利用一致性蒸餾技術得到了VideoLCM 模型: 

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

##論文網址:https://arxiv.org/abs/2312.09109

專案首頁:https://tf-t2v.github.io/

即將公開原始碼:https://github.com/ali-vilab/i2vgen-xl (VGen 專案)。

不同於先前視訊產生方法需要大約50 步DDIM 去噪步驟,基於TF-T2V 的VideoLCM 方法可以只需要進行大約4 步推理去噪就產生高保真的視頻,大大提升了視訊生成的效率。

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

一起來看看VideoLCM 進行4 步驟去雜訊推理的結果:華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!

##具體細節和更多實驗結果可以參考VideoLCM 原始論文或專案首頁。

#########總而言之,TF-T2V 方案為影片生成領域帶來了新思路,克服了資料集規模和標註難題帶來的挑戰。利用大規模的無文字標註視頻數據,TF-T2V 能夠產生高品質的視頻,並應用於多種視訊生成任務。這項創新將推動視訊生成技術的發展,為各行各業帶來更廣闊的應用場景和商業機會。 ######

以上是華科阿里等企業合作開發的TF-T2V技術降低了AI視訊生產的成本!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

抖音發布他人影片侵權嗎?它怎麼剪輯影片不算侵權? 抖音發布他人影片侵權嗎?它怎麼剪輯影片不算侵權? Mar 21, 2024 pm 05:57 PM

隨著短影片平台的興起,抖音成為了大家日常生活中不可或缺的一部分。在抖音上,我們可以看到來自世界各地的有趣影片。有些人喜歡發布他人的視頻,這就引發了一個問題:抖音發布他人視頻侵權嗎?本文將圍繞這個問題展開討論,告訴大家怎樣剪輯影片不算侵權,以及如何避免侵權問題。一、抖音發布他人影片侵權嗎?根據我國《著作權法》的規定,未經著作權人許可,擅自使用其作品,屬於侵權行為。因此,在抖音上發布他人視頻,如果未經原作者或著作權人許可,就屬於侵權行為。二、怎樣剪輯影片不算侵權? 1.使用公共領域或授權的內容:公共

使用ddrescue在Linux上恢復數據 使用ddrescue在Linux上恢復數據 Mar 20, 2024 pm 01:37 PM

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備,留下損壞的資料區塊,只移動好的資料區塊。 ddreasue是一種強大的恢復工具,完全自動化,因為它在恢復操作期間不需要任何干擾。此外,由於有了ddasue地圖文件,它可以隨時停止和恢復。 DDREASE的其他主要功能如下:它不會覆寫恢復的數據,但會在迭代恢復的情況下填補空白。但是,如果指示工具明確執行此操作,則可以將其截斷。將資料從多個檔案或區塊還原到單

開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! 開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

抖音發布影片如何賺收益?新手小白怎麼在抖音上賺錢啊? 抖音發布影片如何賺收益?新手小白怎麼在抖音上賺錢啊? Mar 21, 2024 pm 08:17 PM

抖音,這個全民短視頻平台,不僅讓我們在閒暇時間享受到各種有趣、新奇的短視頻,同時也給了我們一個展示自我、實現價值的舞台。那麼,如何在抖音發布影片中賺取收益呢?本文將詳細解答這個問題,幫助你在抖音上賺取更多的收益。一、抖音發布影片如何賺收益?發布影片在抖音上獲得一定的播放量後,可以有機會參與廣告分成計畫。這項收益方式是抖音用戶最熟悉的之一,也是許多創作者主要的收入來源。抖音根據帳號權重、影片內容以及觀眾回饋等多種因素來決定是否提供廣告分成的機會。抖音平台允許觀眾透過發送禮物來支持自己喜歡的創作者,

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

如何發布小紅書影片作品?發影片要注意什麼? 如何發布小紅書影片作品?發影片要注意什麼? Mar 23, 2024 pm 08:50 PM

隨著短影片平台的興起,小紅書成為了許多人分享生活、表達自我、獲取流量的平台。在這個平台上,發布影片作品是一種非常受歡迎的互動方式。那麼,如何發布小紅書影片作品呢?一、如何發布小紅書影片作品?首先,確保準備好一段適合分享的影片內容。你可以利用手機或其他攝影設備拍攝,需要注意畫質和聲音的清晰度。 2.剪輯影片:為了讓作品更具吸引力,可以剪輯影片。可使用專業的影片剪輯軟體,如抖音、快手等,加入濾鏡、音樂、字幕等元素。 3.選擇封面:封面是吸引用戶點擊的關鍵,選擇一張清晰、有趣的圖片作為封面,讓

微博發影片怎麼不壓縮畫質_微博發影片不壓縮畫質方法 微博發影片怎麼不壓縮畫質_微博發影片不壓縮畫質方法 Mar 30, 2024 pm 12:26 PM

1.先打開手機微博,點選右下角【我】(如圖所示)。 2、接著點選右上角【齒輪】打開設定(如圖所示)。 3.然後找到並開啟【通用設定】(如圖所示)。 4.隨後進入【影片隨著】選項(如圖所示)。 5.再開啟【影片上傳清晰度】設定(如圖)。 6.最後選擇【原畫質】就能不壓縮了(如圖)。

iPhone上的蜂窩數據網路速度慢:修復 iPhone上的蜂窩數據網路速度慢:修復 May 03, 2024 pm 09:01 PM

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

See all articles