首頁 科技週邊 人工智慧 二次元專用超分AI模型APISR:線上可用,入選CVPR

二次元專用超分AI模型APISR:線上可用,入選CVPR

Apr 07, 2024 pm 05:07 PM
工程 apisr

動漫作品如《七龍珠》、《神奇寶貝》、《新世紀福音戰士》等上個世紀開播的動漫是許多人童年回憶的一部分,它們曾給我們帶來了充滿了熱血、友誼與夢想的視覺之旅。某些時候,我們會突然有重溫這些童年回憶的衝動,但我們可能會遺憾地發現這些童年回憶的辨識率非常低,根本無法在寬屏電視上創造出良好的視覺體驗,以至於阻礙我們與在高清解析度數位世界中成長的孩子分享這些童年回憶。

對於這種的惡性競爭(以及潛在的市場),一種做法是由動畫公司製作重製版。這項任務的人力和資金成本都不低,但可能比忽視此問題和失去市場份額更值得。

多模態人工智慧的表現日益強大,借用基於AI的超解析度技術來提升動漫解析度也成為了一個值得探索的方向。此技術能夠根據少量的低解析度影像重建出高解析度的影像,使得動漫畫面更加清晰、精細。這項方法透過訓練大量樣本數據,利用深度

近日,密歇根大學、耶魯大學和浙江大學的一個聯合團隊透過分析動漫的製作過程,為動漫超解析度任務創造出了一套相當實用的新方法。其中包括資料集、模型和一些改進措施。這項研究已被CVPR 2024會議接收。團隊也開源了相關程式碼,並在Huggingface上線了一個試用模型。

二次元專用超分AI模型APISR:線上可用,入選CVPR

  • 論文標題:APISR: Anime Production Inspired Real-World Anime Super-Resolution

  • 論文位址:https://arxiv.org/pdf/2403.01598.pdf

  • 程式碼位址:https://github.com/Kiteretsu77/APISR

  • #試用模型:https://huggingface.co/spaces/HikariDawn/APISR

下圖是本站用《七龍珠》第一集片頭截圖嘗試的結果,效果肉眼可見的好。

二次元專用超分AI模型APISR:線上可用,入選CVPR

另外也已經有人嘗試使用該技術來提升視訊分辨率,結果非常棒:

二次元專用超分AI模型APISR:線上可用,入選CVPR

# #動畫製作流程

為了了解這套新方法的創新之處,我們先來看看動漫一般是怎麼製作的。

首先,由人類在紙上繪出草圖,然後透過電腦影像產生(CGI)處理來進行上色和增強。然後,將這些經過處理的草圖連接起來,做成影片。

不過,由於繪圖這道工序非常耗費人力且人眼對運動並不敏感,因此在合成影片時,業界的標準做法是讓單張影像重複用於多個連續影格。

透過分析此流程,這個聯合團隊不禁開始懷疑是否有必要使用視訊模型和視訊資料集來訓練動漫超解析度模型:完全可以對影像執行超分辨率,然後再把這些影像連起來嘛!

於是他們決定使用基於影像的方法和資料集來打造一個適用於影像和影片的統一的超解析度和復原框架。

新提出的方法

針對動畫製作的圖像超解析度(API SR)資料集

該團隊提出了API SR 資料集,這裡簡單介紹一下其收集整理方法。此方法利用了動漫影片的特色(見圖 2),可以從影片中選出被壓縮最少且資訊最豐富的影格。

二次元專用超分AI模型APISR:線上可用,入選CVPR

基於 I 幀的影像收集:視訊壓縮涉及視訊品質和資料規模的權衡。而現在視訊壓縮的標準很多,每一種都有各自的複雜工程系統,但它們都有類似的主幹設計。

這些特點導致每一幀的壓縮品質是不一樣的。視訊壓縮過程會指定一些關鍵影格(即 I 幀)作為單一的壓縮單元。在實踐中,I 幀是場景變化時的第一幀。這些 I 幀可以佔據較大的資料量。而非 I 幀(即 P 幀和 B 幀)則有更高的壓縮率,它們在壓縮過程中需要以 I 幀為參照,引入隨時間的變化。如圖 3a 所示,在該團隊收集的動漫影片中,I 幀的資料大小一般都高於非 I 幀,且 I 幀的品質也確實更高。因此,該團隊使用視訊處理工具 ffmpeg 從視訊來源中提取出了所有 I 幀並將其作為初始資料池。

二次元專用超分AI模型APISR:線上可用,入選CVPR

基於影像複雜度進行選取:該團隊基於影像複雜度評估(ICA)對初始的 I 幀池進行了篩選,這是一個更適合動畫的指標,見圖 4。

二次元專用超分AI模型APISR:線上可用,入選CVPR

API 資料集:團隊手動收集了 562 段高品質動畫影片。然後基於上述兩步從每段影片收集了 10 個得分最高的幀。然後再進行了一番篩選,去除了不合適的影像,最終得到了一個包含 3740 張高品質影像的資料集。圖 5 展示了一些圖像範例。另外也能從圖 3b 看到 API 資料集在影像複雜度上的優勢。

二次元專用超分AI模型APISR:線上可用,入選CVPR

回到最初的 720P 解析度:透過研究動畫製作流程,可以看到大多數動漫製作都採用了 720P 的格式(即圖像高 720 像素)。但是,在真實世界場景中,為了實現多媒體格式的標準化,動漫往往會被錯誤地上調到 1080P 或其它格式。團隊透過實驗發現,將所有動漫影像的尺寸重新調整為原始的 720P 可以提供創作者設想的特徵密度,同時還有更緊湊的動漫手繪線條和 CGI​​ 資訊。

一個動畫的實用退化模型

在現實世界的超解析度任務中,退化模型(degradation model)的設計非常重要。基於高階退化模型和近期的一種基於影像的視訊壓縮恢復模型,該團隊提出了兩種改進方案,可以恢復扭曲的手繪線條和各種壓縮偽影,還能增強退化模型的表徵。圖 6a 展示了這個退化模型。

二次元專用超分AI模型APISR:線上可用,入選CVPR

以預測為導向的壓縮:對影片壓縮偽影的動畫復原任務而言,使用影像退化模型會構成難題。這是因為 JPEG 影像格式的壓縮方式和視訊壓縮方式的原理是不一樣的。

為了回應這樣的難題,團隊設計了一個在影像退化模型中使用的以預測為導向的壓縮模型。此模組需要視訊壓縮演算法來在壓縮單幀的輸入。

憑藉此方法,影像退化模型能夠合成類似於典型的多幀視訊壓縮中觀察到的壓縮偽影,如圖 7 所示。之後,透過將這些合成的影像輸入影像超解析度網絡,系統就能有效地學習各種壓縮偽影的模式並進行恢復。

二次元專用超分AI模型APISR:線上可用,入選CVPR

打亂大小調整模組的順序:真實世界超解析度領域的退化模型需要考慮模糊、大小調整、雜訊和壓縮模組。模糊、雜訊和壓縮是可以透過清楚的數學模型或演算法合成的真實世界偽影。但是,大小調整模組的邏輯全然不同。大小調整並不是自然影像生成的一部分,而是專門為超解析度的成對資料集引入的。因此,先前固定大小的大小調整模組並不非常合適。該團隊提出了一種更穩健和有效的解決方案,其中涉及在退化模型中以不同順序隨機放置大小調整操作。

增強動畫的手繪線條

該團隊的選擇是直接提取銳化過的手繪線條資訊並將其與基本真值(GT/ground-truth )融合,從而形成偽GT。透過將此專門針對性增強過的偽 GT​​ 引入到超解析度訓練過程中,網路無需引入額外的神經網路模組或單獨的後處理網路也能產生銳利的手繪線條。

為了更好地提取手繪線條,該團隊使用了 XDoG,這是一種基於逐像素高斯核的草圖提取演算法,可以提取銳化的 GT 的邊緣圖。

然而,XDoG 邊緣圖存在過多雜訊的問題,其中包含離群像素和破碎的線條表徵。為了解決這個問題,團隊提出了一種離群值過濾技術,也搭配了一種客製化設計的被動擴張方法。透過這種方式,可以得到更連貫且未擾亂的手繪線條表徵。

團隊透過實驗發現,過度銳利化的預處理GT 可以讓手繪線條邊緣比其它無關的陰影邊緣細節更容易注意到,這使得離群值過濾器可以更輕鬆地分辨它們的差異。為此,團隊提出首先為 GT 進行三輪去銳化遮罩操作。圖 8 給出了這個過程的簡單圖示。

二次元專用超分AI模型APISR:線上可用,入選CVPR

用於動畫的平衡雙感知損失

#另外還有出現多餘色彩偽影的問題,這主要是由於生成器和感知損失之間的訓練中資料域不一致。

為了解決這個問題以及彌補先前方法的不足,團隊的做法是使用一個預先訓練的 ResNet,其在 Danbooru 資料集上進行了動漫目標分類任務的訓練。 Danbooru 資料集是一個動漫插圖資料庫,包含大量且豐富的標註。由於這個預訓練網路是 ResNet50 而非 VGG,因此團隊也提出了類似的中間層比較。

但是,如果只使用基於ResNet 的損失,可能會出現視覺結果差的問題這是由Danbooru 數據集中的固有偏差導致的—— 該數據集中大部分圖像都是人物面部或相對簡單的插圖。因此,團隊權衡之下,決定使用真實世界特徵作為輔助來引導訓練過程中基於 ResNet 的感知損失。這種方法可得到視覺效果良好的影像,同時也能解決出現多餘顏色的問題。

實驗

實現細節

#實驗中,該團隊使用了新提出的API 資料集作為影像網路的訓練資料集。至於影像網絡,則是使用了 GRL 的一個微型版本,其中帶有最近卷積上採樣模組。

更多細節和參數請參考原論文。

與目前最佳方法比較

該團隊將新提出的APISR 與其它一些先進方法進行了定量與定性比較,包括Real-ESRGAN、BSRGAN、 RealBasicVSR、AnimeSR 和VQD-SR。

定量比較

如表1 所示,新模型的網路規模最小,參數量只有1.03M,但在所有指標上的表現超過了其它所有方法。

二次元專用超分AI模型APISR:線上可用,入選CVPR

該團隊尤其強調了以預測導向的壓縮模型的作用。

另外,還需指出,僅憑藉 AnimeSR 和 VQDSR 分別 13.3% 和 25% 的訓練樣本複雜度,新方法就達到了這樣的結果。這主要是因為資料集整理過程引入了影像複雜度評估,其能透過選取資訊豐富的影像來提高學習動漫影像表徵的效果。此外,由於新設計的顯式退化模型,退化模型方面就無需訓練了。

定性比較

如圖 10 所示,APISR 得到的視覺品質遠勝於其他方法。

二次元專用超分AI模型APISR:線上可用,入選CVPR

團隊也進行了消融研究,驗證了新資料集、退化模型和損失設計的有效性,詳見原始論文。

以上是二次元專用超分AI模型APISR:線上可用,入選CVPR的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 Jul 17, 2024 am 10:14 AM

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

無限生成視頻,還能規劃決策,擴散強制整合下一token預測與全序列擴散 無限生成視頻,還能規劃決策,擴散強制整合下一token預測與全序列擴散 Jul 23, 2024 pm 02:05 PM

目前,採用下一token預測範式的自回歸大型語言模型已經風靡全球,同時互聯網上的大量合成圖像和視頻也早已讓我們見識到了擴散模型的強大之處。近日,MITCSAIL的一個研究團隊(一作為MIT在讀博士陳博遠)成功地將全序列擴散模型與下一token模型的強大能力統合到了一起,提出了一種訓練和採樣範式:DiffusionForcing(DF)。論文標題:DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion論文地址:https:/

See all articles