擴散模型在影像生成方面取得了顯著成功,但將其應用於視訊超解析度仍存在挑戰。視訊超解析度要求輸出保真度和時間一致性,而擴散模型的固有隨機性使這變得複雜。因此,有效地將擴散模型應用於視訊超解析度仍是一個具有挑戰性的任務。
來自南洋理工大學 S-Lab 的研究團隊提出了一個名為Upscale-A-Video的文本指導潛在擴散框架,用於視訊超分。該框架透過兩個關鍵機制確保時間一致性。首先,在局部範圍內,它將時間層整合到U-Net和VAE-Decoder中,以保持短序列的一致性。其次,在全局範圍內,該框架引入了串流指導循環潛在傳播模組,無需訓練即可在整個序列中傳播和融合潛在,從而增強整體視訊的穩定性。這種框架的提出為視訊超分提供了一種新的解決方案,具有較好的時間一致性和整體穩定性。
論文地址:https://arxiv.org/abs/2312.06640
透過擴散範式,Upscale-A-Video 獲得了很大的靈活性。它允許使用文字 prompt 來指導紋理的創建,並且可以調節噪音水平,以在恢復和生成之間平衡保真度和品質。這項特性使得該技術在保持原始內容意義不變的同時,能夠微調細節,從而實現更精確的結果。
實驗結果表明,Upscale-A-Video在合成和現實世界基準上的表現超過了現有方法,呈現出令人印象深刻的視覺真實感和時間一致性。
我們先來看幾個具體例子,例如,借助Upscale-A-Video,「花果山名場面」有了高清畫質版:
比起StableSR,Upscale-A-Video 讓影片中的松鼠毛髮紋理清晰可見:
##方法簡介# #一些研究透過引入時間一致性策略來優化影像擴散模型以適應視訊任務。這些策略包括以下兩種方法:首先,透過時間層微調視訊模型,如3D卷積和時間注意力,來提升視訊處理效能。其次,使用零樣本機制,例如跨幀注意力和流指導注意力,來在預訓練模型中進行調整,以提高視訊任務的表現。這些方法的引入使得影像擴散模型能夠更好地處理視訊任務,從而提升視訊處理的效果。
儘管這些解決方案顯著提高了視訊穩定性,但仍存在兩個主要問題:
具體來說,在潛在擴散框架內,研究首先使用整合的3D 卷積和時間注意力層對U-Net 進行微調,然後使用視訊條件輸入和3D 卷積來調整VAE 解碼器。前者顯著實現了局部序列的結構穩定性,後者進一步提高了低階一致性,減少了紋理閃爍。在全局範圍內,該研究引入了一種新穎的、免訓練的流指導循環潛在傳播模組,在推理過程中雙向進行逐幀傳播和潛在融合,促進長視頻的整體穩定性。
Upscale-A-Video 模型可以利用文字 prompt 作為可選條件來指導模型產生更真實、更高品質的細節,如圖 1 所示。
实验结果
Upscale-A-Video 在现有基准上实现了SOTA性能,展现出卓越的视觉真实感和时间一致性。
定量评估。如表 1 所示,Upscale-A-Video在所有四个合成数据集中实现了最高的 PSNR,表明其具有出色的重建能力。
定性评估。该研究分别在图 4 和图 5 中展示了合成和真实世界视频的视觉结果。Upscale-A-Video 在伪影去除和细节生成方面都显著优于现有的 CNN 和基于扩散的方法。
以上是「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video的詳細內容。更多資訊請關注PHP中文網其他相關文章!