「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video
擴散模型在影像生成方面取得了顯著成功,但將其應用於視訊超解析度仍存在挑戰。視訊超解析度要求輸出保真度和時間一致性,而擴散模型的固有隨機性使這變得複雜。因此,有效地將擴散模型應用於視訊超解析度仍是一個具有挑戰性的任務。
來自南洋理工大學 S-Lab 的研究團隊提出了一個名為Upscale-A-Video的文本指導潛在擴散框架,用於視訊超分。該框架透過兩個關鍵機制確保時間一致性。首先,在局部範圍內,它將時間層整合到U-Net和VAE-Decoder中,以保持短序列的一致性。其次,在全局範圍內,該框架引入了串流指導循環潛在傳播模組,無需訓練即可在整個序列中傳播和融合潛在,從而增強整體視訊的穩定性。這種框架的提出為視訊超分提供了一種新的解決方案,具有較好的時間一致性和整體穩定性。
論文地址:https://arxiv.org/abs/2312.06640
透過擴散範式,Upscale-A-Video 獲得了很大的靈活性。它允許使用文字 prompt 來指導紋理的創建,並且可以調節噪音水平,以在恢復和生成之間平衡保真度和品質。這項特性使得該技術在保持原始內容意義不變的同時,能夠微調細節,從而實現更精確的結果。
實驗結果表明,Upscale-A-Video在合成和現實世界基準上的表現超過了現有方法,呈現出令人印象深刻的視覺真實感和時間一致性。
我們先來看幾個具體例子,例如,借助Upscale-A-Video,「花果山名場面」有了高清畫質版:

比起StableSR,Upscale-A-Video 讓影片中的松鼠毛髮紋理清晰可見:

##方法簡介# #一些研究透過引入時間一致性策略來優化影像擴散模型以適應視訊任務。這些策略包括以下兩種方法:首先,透過時間層微調視訊模型,如3D卷積和時間注意力,來提升視訊處理效能。其次,使用零樣本機制,例如跨幀注意力和流指導注意力,來在預訓練模型中進行調整,以提高視訊任務的表現。這些方法的引入使得影像擴散模型能夠更好地處理視訊任務,從而提升視訊處理的效果。
儘管這些解決方案顯著提高了視訊穩定性,但仍存在兩個主要問題:
- 目前在U-Net 特徵或潛在空間中運行的方法難以保持低階一致性,紋理閃爍等問題仍然存在。
- 現有的時間層和注意力機制只能對短的局部輸入序列施加約束,限制了它們確保較長視訊中全局時間一致性的能力。
- 為了解決這些問題,Upscale-A-Video 採用局部-全域策略來維持視訊重建中的時間一致性,重點在於細粒度紋理和整體一致性。在局部視訊剪輯上,研究探索使用視訊資料上的附加時間層來微調預訓練影像 ×4 超分模型。
具體來說,在潛在擴散框架內,研究首先使用整合的3D 卷積和時間注意力層對U-Net 進行微調,然後使用視訊條件輸入和3D 卷積來調整VAE 解碼器。前者顯著實現了局部序列的結構穩定性,後者進一步提高了低階一致性,減少了紋理閃爍。在全局範圍內,該研究引入了一種新穎的、免訓練的流指導循環潛在傳播模組,在推理過程中雙向進行逐幀傳播和潛在融合,促進長視頻的整體穩定性。
Upscale-A-Video 模型可以利用文字 prompt 作為可選條件來指導模型產生更真實、更高品質的細節,如圖 1 所示。



实验结果
Upscale-A-Video 在现有基准上实现了SOTA性能,展现出卓越的视觉真实感和时间一致性。
定量评估。如表 1 所示,Upscale-A-Video在所有四个合成数据集中实现了最高的 PSNR,表明其具有出色的重建能力。
定性评估。该研究分别在图 4 和图 5 中展示了合成和真实世界视频的视觉结果。Upscale-A-Video 在伪影去除和细节生成方面都显著优于现有的 CNN 和基于扩散的方法。
以上是「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网
