首页 科技周边 人工智能 二次元专用超分AI模型APISR:在线可用,入选CVPR

二次元专用超分AI模型APISR:在线可用,入选CVPR

Apr 07, 2024 pm 05:07 PM
工程 apisr

动漫作品如《龙珠》、《神奇宝贝》、《新世纪福音战士》等上个世纪开播的动漫是许多人童年回忆的一部分,它们曾给我们带来了充满了热血、友情与梦想的视觉之旅。某些时候,我们会突然有重温这些童年回忆的冲动,但我们却可能会遗憾地发现这些童年回忆的辨识率非常低,根本无法在宽屏电视上创建出良好的视觉体验,以至于阻碍我们与在高清分辨率数字世界中成长的孩子分享这些童年回忆。

对于这种的恶性竞争(以及潜在的市场),一种做法是由动画公司制作重制版。这项任务的人力和资金成本都不低,但可能比忽视此问题和失去市场份额更加值得。

多模态人工智能的性能日益强大,借用基于AI的超分辨率技术来提升动漫分辨率也成为了一个值得探索的方向。此技术能够根据少量的低分辨率图像重建出高分辨率的图像,使得动漫画面更加清晰、精细。这一方法通过训练大量样本数据,利用深度

近日,密西根大学、耶鲁大学和浙江大学的一个联合团队通过分析动漫的制作过程,为动漫超分辨率任务创造出了一套相当实用的新方法。其中包括数据集、模型和一些改进措施。这项研究已被CVPR 2024会议接收。该团队还开源了相关代码,并在Huggingface上线了一个试用模型。

二次元专用超分AI模型APISR:在线可用,入选CVPR

  • 论文标题:APISR: Anime Production Inspired Real-World Anime Super-Resolution

  • 论文地址:https://arxiv.org/pdf/2403.01598.pdf

  • 代码地址:https://github.com/Kiteretsu77/APISR

  • 试用模型:https://huggingface.co/spaces/HikariDawn/APISR

下图是本站用《龙珠》第一集片头截图尝试的结果,效果肉眼可见的好。

二次元专用超分AI模型APISR:在线可用,入选CVPR

另外也已经有人尝试使用该技术来提升视频分辨率,结果非常棒:

二次元专用超分AI模型APISR:在线可用,入选CVPR

动漫制作流程

为了了解这套新方法的创新之处,我们先看看动漫一般是怎么制作的。

首先,由人类在纸上绘出草图,然后通过计算机图像生成(CGI)处理来进行上色和增强。然后,将这些经过处理的草图连接起来,做成视频。

不过,由于绘图这道工序非常耗费人力且人眼对运动并不敏感,因此在合成视频时,业内的标准做法是让单张图像重复用于多个连续帧。

通过分析此流程,这个联合团队不禁开始怀疑是否有必要使用视频模型和视频数据集来训练动漫超分辨率模型:完全可以对图像执行超分辨率,然后再把这些图像连起来嘛!

于是他们决定使用基于图像的方法和数据集打造一个适用于图像和视频的统一的超分辨率和恢复框架。

新提出的方法

面向动漫制作的图像超分辨率(API SR)数据集

该团队提出了 API SR 数据集,这里简单介绍一下其收集整理方法。该方法利用了动漫视频的特点(见图 2),可以从视频中选出被压缩最少且信息最丰富的帧。

二次元专用超分AI模型APISR:在线可用,入选CVPR

基于 I 帧的图像收集:视频压缩涉及到视频质量和数据规模的权衡。而现在视频压缩的标准有很多,每一种都有各自的复杂工程系统,但它们都有一个类似的主干设计。

这些特点导致每一帧的压缩质量是不一样的。视频压缩过程会指定一些关键帧(即 I 帧)作为单个的压缩单元。在实践中,I 帧是场景变化时的第一帧。这些 I 帧可以占据较大的数据量。而非 I 帧(即 P 帧和 B 帧)则有更高的压缩率,它们在压缩过程中需要以 I 帧为参照,引入随时间的变化情况。如图 3a 所示,在该团队收集的动漫视频中,I 帧的数据大小一般都高于非 I 帧,并且 I 帧的质量也确实更高。因此,该团队使用视频处理工具 ffmpeg 从视频源提取出了所有 I 帧并将其作为初始数据池。

二次元专用超分AI模型APISR:在线可用,入选CVPR

基于图像复杂度进行选取:该团队基于图像复杂度评估(ICA)对初始的 I 帧池进行了筛选,这是一个更适合动漫的指标,见图 4。

二次元专用超分AI模型APISR:在线可用,入选CVPR

API 数据集:该团队人工收集了 562 段高质量动漫视频。然后基于上述两步从每段视频收集了 10 个得分最高的帧。然后再进行了一番筛选,去除了不合适的图像,最终得到了一个包含 3740 张高质量图像的数据集。图 5 展示了一些图像示例。另外也能从图 3b 看到 API 数据集在图像复杂度方面的优势。

二次元专用超分AI模型APISR:在线可用,入选CVPR

回到最初的 720P 分辨率:通过研究动画制作流程,可以看到大多数动漫制作都采用了 720P 的格式(即图像高 720 像素)。但是,在真实世界场景中,为了实现多媒体格式的标准化,动漫往往会被错误地上调到 1080P 或其它格式。该团队通过实验发现,将所有动漫图像的尺寸重新调整为原始的 720P 可以提供创作者设想的特征密度,同时还有更紧凑的动漫手绘线条和 CGI 信息。

一个动漫的实用退化模型

在现实世界的超分辨率任务中,退化模型(degradation model)的设计非常重要。基于高阶退化模型和近期的一种基于图像的视频压缩恢复模型,该团队提出了两种改进方案,可以恢复扭曲的手绘线条和各种压缩伪影,还能增强退化模型的表征。图 6a 展示了这个退化模型。

二次元专用超分AI模型APISR:在线可用,入选CVPR

面向预测的压缩:对视频压缩伪影的动画恢复任务而言,使用图像退化模型会构成难题。这是因为 JPEG 图像格式的压缩方式和视频压缩方式的原理是不一样的。

为了应对这样的难题,该团队设计了一种在图像退化模型中使用的面向预测的压缩模型。该模块需要视频压缩算法来在压缩单帧的输入。

凭借此方法,图像退化模型能够合成类似于典型的多帧视频压缩中观察到的压缩伪影,如图 7 所示。之后,通过将这些合成的图像输入图像超分辨率网络,系统就能有效地学习各种压缩伪影的模式并进行恢复。

二次元专用超分AI模型APISR:在线可用,入选CVPR

打乱大小调整模块的顺序:真实世界超分辨率领域的退化模型需要考虑模糊、大小调整、噪声和压缩模块。模糊、噪声和压缩是可以通过清楚的数学模型或算法合成的真实世界伪影。但是,大小调整模块的逻辑全然不同。大小调整并不是自然图像生成的一部分,而是为超分辨率的成对数据集专门引入的。因此,之前固定大小的大小调整模块并不非常合适。该团队提出了一种更稳健和有效的解决方案,其中涉及到在退化模型中按不同顺序随机放置大小调整操作。

增强动漫的手绘线条

该团队的选择是直接提取锐化过的手绘线条信息并将其与基本真值(GT/ground-truth)融合,从而形成伪 GT。通过将这种专门针对性增强过的伪 GT 引入到超分辨率训练过程中,网络无需引入额外的神经网络模块或单独的后处理网络也能生成锐利的手绘线条。

为了更好地提取手绘线条,该团队使用了 XDoG,这是一种基于逐像素高斯核的草图提取算法,可以提取出锐化的 GT 的边缘图。

然而,XDoG 边缘图存在过多噪声的问题,其中包含离群像素和破碎的线条表征。为了解决这个问题,该团队提出了一种离群值过滤技术,还搭配了一种定制设计的被动扩张方法。通过这种方式,可以得到更加连贯且未扰乱的手绘线条表征。

该团队通过实验发现,过度锐化的预处理 GT 可以让手绘线条边缘比其它无关的阴影边缘细节更容易注意到,这使得离群值过滤器可以更轻松地分辨它们的差异。为此,该团队提出首先为 GT 进行三轮去锐化掩码操作。图 8 给出了这个过程的简单图示。

二次元专用超分AI模型APISR:在线可用,入选CVPR

用于动漫的平衡双感知损失

另外还有出现多余颜色伪影的问题,这主要是由于生成器和感知损失之间的训练中数据域不一致。

为了解决这个问题以及弥补之前方法的不足,该团队的做法是使用一个预训练的 ResNet,其在 Danbooru 数据集上进行了动漫目标分类任务的训练。Danbooru 数据集是一个动漫插图数据库,包含大量且丰富的标注。由于这个预训练网络是 ResNet50 而不是 VGG,因此该团队也提出了一种类似的中间层比较。

但是,如果只使用基于 ResNet 的损失,可能会出现视觉结果差的问题这是由 Danbooru 数据集中的固有偏差导致的 —— 该数据集中大部分图像都是人物面部或相对简单的插图。因此,该团队权衡之下,决定使用真实世界特征作为辅助来引导训练过程中基于 ResNet 的感知损失。这种方法可得到视觉效果好的图像,同时还能解决出现多余颜色的问题。

实验

实现细节

实验中,该团队使用了新提出的 API 数据集作为图像网络的训练数据集。至于图像网络,则是使用了 GRL 的一个微型版本,其中带有最近卷积上采样模块。

更多细节和参数请参看原论文。

与当前最佳方法比较

该团队将新提出的 APISR 与其它一些先进方法进行了定量与定性比较,包括 Real-ESRGAN、BSRGAN、RealBasicVSR、AnimeSR 和 VQD-SR。

定量比较

如表 1 所示,新模型的网络规模最小,参数量只有 1.03M,但在所有指标上的表现超过了其它所有方法。

二次元专用超分AI模型APISR:在线可用,入选CVPR

该团队尤其强调了面向预测的压缩模型的作用。

另外,还需指出,仅凭借 AnimeSR 和 VQDSR 分别 13.3% 和 25% 的训练样本复杂度,新方法就达到了这样的结果。这主要是得益于数据集整理过程引入了图像复杂度评估,其能通过选取信息丰富的图像来提高学习动漫图像表征的效果。此外,得益于新设计的显式退化模型,退化模型方面就无需训练了。

定性比较

如图 10 所示,APISR 得到的视觉质量远胜过其他方法。

二次元专用超分AI模型APISR:在线可用,入选CVPR

该团队也进行了消融研究,验证了新数据集、退化模型和损失设计的有效性,详见原论文。

以上是二次元专用超分AI模型APISR:在线可用,入选CVPR的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频,PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了!这次瞄准绘画领域。新项目PaintsUndo刚上线不久,就收获1.4kstar(还在疯狂涨)。项目地址:https://github.com/lllyasviel/Paints-UNDO通过该项目,用户输入一张静态图像,PaintsUndo就能自动帮你生成整个绘画的全过程视频,从线稿到成品都有迹可循。绘制过程,线条变化多端甚是神奇,最终视频结果和原图像非常相似:我们再来看一个完整的绘

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RL

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:StevenXia,四年级博士生,研究方向是基于AI大模型的自动代码修复;邓茵琳,四年级博士生,研究方

OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂,你敢用吗?随着机器学习系统在更重要的领域得到应用,证明为什么我们可以信任它们的输出,并明确何时不应信任它们,变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是,要求系统对其输出产生一种解释,这种解释对人类或另一个受信任的系统来说是可读的,即可以完全理解以至于任何可能的错误都可以被发现。例如,为了建立对司法系统的信任,我们要求法院提供清晰易读的书面意见,解释并支持其决策。对于大型语言模型来说,我们也可以采用类似的方法。不过,在采用这种方法时,确保语言模型生

公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4 公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4 Jul 17, 2024 am 10:14 AM

把因果链展示给LLM,它就能学会公理。AI已经在帮助数学家和科学家做研究了,比如著名数学家陶哲轩就曾多次分享自己借助GPT等AI工具研究探索的经历。AI要在这些领域大战拳脚,强大可靠的因果推理能力是必不可少的。本文要介绍的这项研究发现:在小图谱的因果传递性公理演示上训练的Transformer模型可以泛化用于大图谱的传递性公理。也就是说,如果让Transformer学会执行简单的因果推理,就可能将其用于更为复杂的因果推理。该团队提出的公理训练框架是一种基于被动数据来学习因果推理的新范式,只有演示

黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题,与素数分布的精确性质有关(素数是那些只能被1和自身整除的数字,它们在数论中扮演着基础性的角色)。在当今的数学文献中,已有超过一千条数学命题以黎曼猜想(或其推广形式)的成立为前提。也就是说,黎曼猜想及其推广形式一旦被证明,这一千多个命题将被确立为定理,对数学领域产生深远的影响;而如果黎曼猜想被证明是错误的,那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯!当论文讨论细致到词句,是什么体验?最近,斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv,可以直接在任何arXiv论文之上发布问题和评论。网站链接:https://alphaxiv.org/其实不需要专门访问这个网站,只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文:可以精准定位到论文中的段落、句子:右侧讨论区,用户可以发表问题询问作者论文思路、细节,例如:也可以针对论文内容发表评论,例如:「给出至

无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散 无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散 Jul 23, 2024 pm 02:05 PM

当前,采用下一token预测范式的自回归大型语言模型已经风靡全球,同时互联网上的大量合成图像和视频也早已让我们见识到了扩散模型的强大之处。近日,MITCSAIL的一个研究团队(一作为MIT在读博士陈博远)成功地将全序列扩散模型与下一token模型的强大能力统合到了一起,提出了一种训练和采样范式:DiffusionForcing(DF)。论文标题:DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion论文地址:https:/

See all articles