AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
無需訓練或微調,在提示詞指定的新場景中克隆參考視頻的運動,無論是全局的相機運動還是局部的肢體運動都可以克隆參考視頻的運動,無論是全局的相機運動還是局部的肢體運動都可以一鍵搞定。
論文:https://arxiv.org/abs/2406.05338
主頁:https://bujiazi.github.io/motionclone.gith
主頁:https://bujiazi.github.io/motionclone.github時序注意力模組中的運動資訊
在文字生視訊工作中,時序注意力模組 (Temporal Attention) 被廣泛用於建模視訊的幀間相關性。由於時序注意力模組中的注意力分數 (attention map score) 表徵了幀間的相關性,因此一個直觀的想法是是否可以透過約束完全一致的注意力分數來複製的幀間聯繫從而實現運動克隆。 然而,實驗發現直接複製完整的注意力圖(plain control) 只能實現非常粗糙的運動遷移,這是因為注意力中大多數權重對應的是噪聲或者非常細微的運動信息,這些信息一方面難以和文本指定的新場景相結合,另一方面掩蓋了潛在的有效的運動指導。 為了解決這個問題,MotionClone 引入了主成分時序注意力運動指導機制(Primary temporal-attention guidance),僅利用時序注意力中的主要成分來對視頻生成進行稀疏指導,從而過濾噪音和細微運動訊息的負面影響,實現運動在文本指定的新場景下的有效克隆。空間語義修正
主成分時序注意力運動指導能夠實現對參考視頻的運動克隆,但是無法確保運動的主體和用戶意圖相一致,這會降低視頻生成的質量,在某某有些情況甚至會導致運動主體的錯位。 為了解決上述問題,MotionClone 引入空間語義引導機制(Location-aware semantic guidance),透過交叉注意力掩碼(Cross Attention Mask)劃分影片的前後背景區域,透過分別約束影片前後背景的語意資訊來保障空間語義的合理佈局,促進時序運動和空間語義的正確耦合。MotionClone 實作細節
DDIM 反轉:MotionClone 採用 DDIM Inversion 將輸入的參考影片反轉至 latent space 中,實現對參考影片的時序注意力主成分擷取。
引導階段:在每次去噪時,MotionClone 同時引入了主成分時序注意力運動指導和空間語義信息指導,它們協同運行,為可控視頻生成提供全面的運動和語義引導。
高斯遮罩:在空間語義引導機制中,採用高斯核函數對交叉注意力遮罩進行模糊處理,消除潛在的結構訊息影響。
DAVIS 資料集中的 30 個影片被用於測試。實驗結果顯示 MotionClone 實現了在文本契合度、時序一致性以及多項用戶研究指標上的顯著提升,超越了以往的運動遷移方法,具體結果如下表所示。
MotionClone 與已有運動遷移方法的生成結果對比如下圖所示,可見 MotionClone 具有領先的性能。
綜上所述,MotionClone 是一種新的運動遷移框架,能夠在無需訓練或微調的情況下,有效地將參考視頻中的運動克隆到用戶給定提示詞指定的新場景,為現有的文生視訊模型提供了即插即用的運動客製化方案。
MotionClone 在保留已有基座模型的生成質量的基礎上引入高效的主成分運動信息指導和空間語義引導,在保障和文本的語義對齊能力的同時顯著提高了和參考視頻的運動一致性,實現高品質的可控的視頻生成。
此外,MotionClone 能夠直接適配豐富的社群模式實現多樣化的影片生成,具備極高的擴展性。
以上是MotionClone:無需訓練,一鍵克隆視訊運動的詳細內容。更多資訊請關注PHP中文網其他相關文章!