首頁 科技週邊 人工智慧 14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

Dec 27, 2023 pm 06:35 PM
工程 fairy

Meta的視訊合成新框架為我們帶來了一些驚喜


就今天的人工智慧發展水平來說,文生圖、圖生影片、影像/影片風格遷移都已經不算什麼難事。

生成式 AI 天賦異禀,能夠毫不費力地創建或修改內容。尤其是圖像編輯,在以十億規模數據集為基礎預訓練的文本到圖像擴散模型的推動下,經歷了重大發展。這股浪潮催生了大量圖像編輯和內容創建應用。

基於圖像的生成模型所取得的成就基礎上,下一個挑戰的領域必然是為其增加“時間維度”,從而實現輕鬆而富有創意的視頻編輯。

一種直接策略是使用圖像模型逐幀處理視頻,然而,生成式圖像編輯本身俱有高變異性—即使根據相同的文字提示,也存在無數種編輯給定圖像的方法。如果每一幀都獨立編輯,​​很難保持時間上的一致性。

在最近的一篇論文中,來自Meta GenAI團隊的研究者提出了Fairy——透過對圖像編輯擴散模型進行「簡單的改編」,大大增強了AI在影片編輯上的表現。

以下是Fairy的編輯影片效果展示:

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

Fairy 產生120 幀512×384 影片(4 秒時長,30 FPS)的時間僅14 秒,比之前的方法至少快44 倍。一項涉及 1000 個生成樣本的全面用戶研究證實,該方法生成質量上乘,明顯優於現有方法。

怎麼做到的?

根據論文介紹,Fairy以基於錨點的跨幀注意力概念為核心,這種機制可隱性地跨幀傳播擴散特徵,確保了時間一致和高保真的合成效果。 Fairy 不僅解決了以往模型在記憶體和處理速度等方面的局限性,還透過獨特的資料增強策略提高了時間一致性,這種策略使模型等價於來源影像和目標影像的仿射變換。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

  • 論文網址:https://arxiv.org/pdf/2312.13834.pdf
  • #專案首頁:https://fairy-video2video.github.io/

方法

Fairy在擴散模型特徵的背景下對先前的追蹤-傳播(tracking-and-propagation)範式進行了重新審視。特別是,該研究用對應估計( correspondence estimation)架起了跨幀注意之間的橋樑,使得模型在擴散模型內可以追蹤和傳播中間特徵。

跨幀的注意力圖可以解釋為一種相似性度量,用來評估各個幀中token之間的對應關係,其中一個語義區域的特徵會將更高的注意力分配給其他幀中的相似語義區域,如下圖3所示。

因此,目前的特徵表示透過注意力幀間相似區域的加權和進行細化和傳播,從而有效地最小化幀之間的特徵差異。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

一系列操作下來產生了基於錨點的模型,這是 Fairy 的核心組件。

為了確保生成影片的時間一致性,該研究採樣了K個錨點幀,從而提取擴散特徵,並且提取的特徵被定義為一組要傳播到連續幀的全局特徵。當產生每個新幀時,該研究針對錨點幀的快取特徵將自註意力層替換為跨幀注意力。透過跨幀注意力,每個幀中的 token都採用錨點幀中表現出類似語義內容的特徵,從而增強一致性。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

實驗評估

#在實驗部分,研究者主要基於指令型影像編輯模型來實現Fairy,並使用跨幀注意力替換模型的自註意力。他們將錨定幀的數量設定為3。模型可以接受不同長寬比的輸入,並將較長尺寸的輸入解析度重新擴展為512,並保持長寬比不變。研究者對輸入影片的所有畫面進行編輯,而不進行下採樣。所有計算在8塊A100 GPU上分配完成。

定性評估

#研究者首先展示了Fairy的定性結果,如下圖5所示,Fairy可以對不同的主題進行編輯。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

在下圖6中,研究者展示了Fairy可以依照文字指令來進行不同類型的編輯,包括風格化、角色變化、局部編輯、屬性編輯等。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

下圖9展示了Fairy可以根據指令將來源角色轉換為不同的目標角色。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

量化評估

研究者在下圖7中展示了整體品質比較結果,其中Fairy產生的影片更受歡迎。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

下圖10展示了與基準模型的視覺比較結果。

14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍

更多技術細節和實驗結果參考原論文。

以上是14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 Jul 17, 2024 am 10:14 AM

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示

See all articles