就今天的人工智慧發展水平來說,文生圖、圖生影片、影像/影片風格遷移都已經不算什麼難事。 生成式 AI 天賦異禀,能夠毫不費力地創建或修改內容。尤其是圖像編輯,在以十億規模數據集為基礎預訓練的文本到圖像擴散模型的推動下,經歷了重大發展。這股浪潮催生了大量圖像編輯和內容創建應用。 基於圖像的生成模型所取得的成就基礎上,下一個挑戰的領域必然是為其增加“時間維度”,從而實現輕鬆而富有創意的視頻編輯。 一種直接策略是使用圖像模型逐幀處理視頻,然而,生成式圖像編輯本身俱有高變異性—即使根據相同的文字提示,也存在無數種編輯給定圖像的方法。如果每一幀都獨立編輯,很難保持時間上的一致性。 在最近的一篇論文中,來自Meta GenAI團隊的研究者提出了Fairy——透過對圖像編輯擴散模型進行「簡單的改編」,大大增強了AI在影片編輯上的表現。
Fairy 產生120 幀512×384 影片(4 秒時長,30 FPS)的時間僅14 秒,比之前的方法至少快44 倍。一項涉及 1000 個生成樣本的全面用戶研究證實,該方法生成質量上乘,明顯優於現有方法。 根據論文介紹,Fairy以基於錨點的跨幀注意力概念為核心,這種機制可隱性地跨幀傳播擴散特徵,確保了時間一致和高保真的合成效果。 Fairy 不僅解決了以往模型在記憶體和處理速度等方面的局限性,還透過獨特的資料增強策略提高了時間一致性,這種策略使模型等價於來源影像和目標影像的仿射變換。
- 論文網址:https://arxiv.org/pdf/2312.13834.pdf
- #專案首頁:https://fairy-video2video.github.io/
Fairy在擴散模型特徵的背景下對先前的追蹤-傳播(tracking-and-propagation)範式進行了重新審視。特別是,該研究用對應估計( correspondence estimation)架起了跨幀注意之間的橋樑,使得模型在擴散模型內可以追蹤和傳播中間特徵。 跨幀的注意力圖可以解釋為一種相似性度量,用來評估各個幀中token之間的對應關係,其中一個語義區域的特徵會將更高的注意力分配給其他幀中的相似語義區域,如下圖3所示。 因此,目前的特徵表示透過注意力幀間相似區域的加權和進行細化和傳播,從而有效地最小化幀之間的特徵差異。
一系列操作下來產生了基於錨點的模型,這是 Fairy 的核心組件。 為了確保生成影片的時間一致性,該研究採樣了K個錨點幀,從而提取擴散特徵,並且提取的特徵被定義為一組要傳播到連續幀的全局特徵。當產生每個新幀時,該研究針對錨點幀的快取特徵將自註意力層替換為跨幀注意力。透過跨幀注意力,每個幀中的 token都採用錨點幀中表現出類似語義內容的特徵,從而增強一致性。
#在實驗部分,研究者主要基於指令型影像編輯模型來實現Fairy,並使用跨幀注意力替換模型的自註意力。他們將錨定幀的數量設定為3。模型可以接受不同長寬比的輸入,並將較長尺寸的輸入解析度重新擴展為512,並保持長寬比不變。研究者對輸入影片的所有畫面進行編輯,而不進行下採樣。所有計算在8塊A100 GPU上分配完成。 #研究者首先展示了Fairy的定性結果,如下圖5所示,Fairy可以對不同的主題進行編輯。
在下圖6中,研究者展示了Fairy可以依照文字指令來進行不同類型的編輯,包括風格化、角色變化、局部編輯、屬性編輯等。
下圖9展示了Fairy可以根據指令將來源角色轉換為不同的目標角色。
研究者在下圖7中展示了整體品質比較結果,其中Fairy產生的影片更受歡迎。
以上是14秒就能重建視頻,還能變換角色,Meta讓視頻合成提速44倍的詳細內容。更多資訊請關注PHP中文網其他相關文章!