ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法
盲人脸恢复(Blind Face Restoration, BFR)的目标是从低质量的人脸图像中恢复高质量的人脸图像。这是计算机视觉和图形学领域的一项重要任务,在监控图像修复、老照片修复和人脸图像超分辨率等多种场景中得到广泛应用
然而,这个任务非常具有挑战性,因为不确定性的退化会损害图像的质量,甚至会导致图像信息的丢失,比如模糊、噪声、下采样和压缩伪影等问题。以前的BFR方法通常依赖于生成对抗网络(GAN),通过设计各种特定于人脸的先验来解决这些问题,包括生成先验、参考先验和几何先验。尽管这些方法已经达到了最先进的水平,但仍然无法完全实现在恢复细节的同时获得逼真纹理的目标
在图像修复过程中,人脸图像的数据集通常分散在高维空间中,并且分布的特征维度呈现长尾分布形式。与图像分类任务的长尾分布不同,图像修复中的长尾区域特征指的是对身份影响较小,而对视觉效果影响很大的属性,比如痣、皱纹和色调等等
根据图1所示的简单为了不改变原始含义,需要将实验结果重写为中文,我们可以发现过去基于GAN的方法在同时处理长尾分布头部和尾部样本时存在明显的问题,修复图像时会出现过度平滑和细节消失的情况。而基于扩散概率模型(Diffusion Probistic Models, DPM)的方法则能够更好地拟合长尾分布,并在拟合真实数据分布的同时保留尾部特征
需要进行重写的内容是:在长尾问题上进行的GAN-based和DPM-based的测试
美图影像研究院(MT Lab)与中国科学院大学的研究者合作提出了一种新的盲人脸图像修复方法DiffBFR,该方法基于DPM技术,成功实现了盲人脸图像的恢复,将低质量(LQ)的人脸图像修复为高质量(HQ)的清晰图像
需要重新写作的内容是:论文链接:https://arxiv.org/abs/2305.04517
这项研究探索了生成对抗网络(GAN)和深度部分模型(DPM)两种生成式模型在处理长尾问题时的适应性。通过设计适当的人脸修复模块,可以获取更准确的细节信息,从而减少生成式方法中可能出现的脸部过度平滑现象,提高修复的精度和准确性。该研究论文已被 ACM MM 2023 接收
基于 DPM 的盲人脸图像修复方法 - DiffBFR
研究发现,扩散模型在避免训练模式崩溃和拟合生成长尾分布方面优于 GAN 方法。因此,DiffBFR选择利用扩散概率模型来增强人脸先验信息的嵌入,并以此为基本框架选择DPM作为解决方案。这是因为扩散模型具有在任意分布范围内产生高质量图像的强大能力
为了解决论文中发现的人脸数据集上的特征长尾分布以及过去基于 GAN 方法的过平滑问题,该研究探索了一种合理的设计来更好地拟合近似长尾分布,并克服修复过程中的过平滑问题。通过在 MNIST 数据集上进行了相同参数大小的 GAN 和 DPM 的简单实验(如图 1),研究发现 DPM 方法能够合理地拟合长尾分布,而 GAN 则过度关注头部特征而忽略尾部特征,导致尾部特征无法生成。因此,选择 DPM 作为 BFR 的一种解决方案
通过引入两个中间变量,DiffBFR 提出了两个具体的修复模块。该设计采用两阶段的方式,首先从LQ图像中恢复身份信息,然后根据真实人脸的分布增强纹理细节。这个设计由两个关键部分组成:
(1)身份恢复模块(Identity Restoration Module, IRM):
这个模块的目的是保留结果中的人脸细节。同时,提出了一种截断采样方法,通过向低质量图像中加入部分噪声,取代了在反向过程中使用纯高斯随机分布去噪的方法。论文从理论上证明了这种改变缩小了DPM的理论证据下界(ELBO),从而恢复了更多原始细节。基于理论证明,引入了两个级联条件扩散模型,这些模型具有不同的输入大小,以增强采样效果,并降低直接生成高分辨率图像的训练难度。同时进一步证明,条件输入的质量越高,越接近真实数据分布,恢复的图像越准确。这也是DiffBFR首先恢复低分辨率图像的原因
(2)纹理增强模块(Texture Enhancement Module, TEM):
用于纹理打磨图像的方法是引入一个无条件扩散模型。这个模型与低质量图像完全无关,进一步使得恢复的结果更接近真实图像数据。论文从理论上证明了在纯高质量图像上训练的无条件扩散模型有助于在像素级空间中输出图像的正确分布。也就是说,使用这个模型后,修复图像的分布的 FID 比使用之前的 FID 更低,整体上与高质量图像的分布更相似。具体来说,就是通过时间步长截断采样来保留身份信息,并对像素级纹理进行打磨
DiffBFR的采样推理步骤如图2所示,采样推理过程示意图如图3所示
需要进行改写的内容是:图2展示了DiffBFR方法的采样推理步骤
需要进行改写的内容是:图 3 展示了 DiffBFR 方法的采样推理过程示意图
为了不改变原始含义,需要将实验结果重写为中文
对比了基于GAN的BFR方法和基于DPM的方法的可视化效果,如图4所示
对于图 5,对于 BFR 的 SOTA 方法的性能进行了比较
BFR方法的可视化效果比较如图6所示
在模型中,我们可以通过可视化来比较IRM和TEM的性能
在模型中,对IRM和TEM进行了性能比较,如图8所示
需要进行改写的内容是:比较不同参数下的图9的IRM性能
对于图 10,我们需要比较不同参数的性能
需要重新写的内容是:图11显示了DiffBFR各个模块的参数设置
总结是将信息或观点以简洁明了的方式重新表达的过程。它不改变原始意思,而是通过使用不同的词汇和句子结构来呈现相同的思想。总结的目的是提供更清晰、更简洁的表达方式,使读者能够更容易地理解和消化所传达的信息。总结在各种场合都有用处,无论是在学术论文中、商业报告中还是日常交流中,都可以通过总结来传达重要的观点和结论。总之,总结是一种重要的沟通工具,能够帮助我们更有效地传达和理解信息
本论文提出了一种基于扩散模型的盲退化人脸图像恢复模型DiffBFR,以解决以往基于GAN方法的训练模式崩溃和长尾消失问题。通过将先验知识嵌入到扩散模型中,能够从随机严重退化的人脸图像中生成高质量、清晰的恢复图像。具体来说,本研究提出了IRM和TEM两个模块,分别用于恢复真实感和细节还原。通过理论推导和实验图像演示,证明了该模型的优越性,并与现有的最先进方法进行了定性和定量比较
需要重写的内容是:研究团队
这篇论文是由美图影像研究院(MT Lab)和中国科学院大学的研究者们共同提出的。美图影像研究院(MT Lab)成立于2010年,是美图公司专注于计算机视觉、深度学习、增强现实等领域算法研究、工程开发和产品化落地的团队。自成立以来,该团队一直致力于计算机视觉领域的探索研究,并于2013年开始布局深度学习,为美图旗下的软硬件产品提供技术支持。同时,他们还为影像行业内的多个垂直领域提供针对性的SaaS服务,通过前沿的影像技术推动美图的人工智能产品生态发展。他们曾参与过CVPR、ICCV、ECCV等国际顶级赛事,并获得了十余项冠军和亚军,发表了超过48篇国际顶级学术会议论文。美图影像研究院(MT Lab)长期致力于影像领域的研发,已经积累了丰富的技术储备,在图片、视频、设计和数字人领域具有丰富的技术落地经验
以上是ACM MM 2023 | DiffBFR: 美图&国科大联合提出的噪音抑制人脸修复方法的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

7月29日,在AITO问界第四十万台新车下线仪式上,华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东出席发表演讲并宣布,问界系列车型将于今年8月迎来华为干昆ADS3.0版本的上市,并计划在8月至9月间陆续推送升级。 8月6日即将发布的享界S9将首发华为ADS3.0智能驾驶系统。华为干昆ADS3.0版本在激光雷达的辅助下,将大幅提升智驾能力,具备融合端到端的能力,并采用GOD(通用障碍物识别)/PDP(预测决策规控)全新端到端架构,提供车位到车位智驾领航NCA功能,并升级CAS3.0全

上个月,一加发布了首款搭载骁龙8Gen3的平板电脑:一加平板Pro,现据最新消息,这款平板的"换娃"版本OPPOPad3也即将发布。上图为OPPOPad2据数码闲聊站透露:OPPOPad3外观配置与一加平板Pro完全一致配色:金色、蓝色(区别于一加的绿色和深灰)存储版本:8/12/16GB+512GB发布日期:今年第四季度(10-12月)同期新品:FindX8系列旗舰ColorOS15EncoX3作为补充:一加平板Pro主要配置:屏幕:12.1英寸,3200*2120分辨率,

在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“DefectSpectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“DefectSpectrum”数据集提供了最多的缺陷标注(5438张缺陷样本),最细致的缺陷分类(125种缺陷类别

开放LLM社区正是百花齐放、竞相争鸣的时代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是,相比于以GPT-4-Turbo为代表的专有大模型,开放模型在很多领域依然还有明显差距。在通用模型之外,也有一些专精关键领域的开放模型已被开发出来,比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

对于AI来说,奥数不再是问题了。本周四,谷歌DeepMind的人工智能完成了一项壮举:用AI做出了今年国际数学奥林匹克竞赛IMO的真题,并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道,获得28分,达到了银牌水平。本月初,UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛(AIMO进步奖),没想到7月还没过,AI的做题水平就进步到了这种水平。IMO上同步做题,做对了最难题IMO是历史最悠久、规模最大、最负

编辑|KX时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员,开发了一种解决晶体相问题的深度学习方法PhAI,利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络,可以生成准确的电子密度图。研究表明,这种基于深度学习的从头算结构解决方案方法,可以以仅2埃的分辨率解决相位问题,该分辨率仅相当于原子分辨率可用数据的10%到20%,而传统的从头算方

编辑|ScienceAI基于有限的临床数据,数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具,以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停,这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据,与同事们建立了一系列AI模型,用于提供潜在诊断和推荐测试。一项研究表明,这些模型可以加快22.3%的就诊速度,将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而,人工智能算法在研究中的成功只是验证此

全新蔚来NIOPhone(NIOPhone2)将于7月27日发布。随着发布时间逐渐临近,7月24日,蔚来汽车科技(安徽)有限公司副总裁白剑,回答了网友关于NIOPhone关心的最多的两个问题。NIOPhone"蔚来为什么要坚持做手机?"类似的问题,几乎稳定出现在所有和全新NIOPhone相关的内容评论区。白剑回应称,做手机这件事,蔚来很早就开始思考和布局了,并不是一时兴起,更不是像某些人所说,因为一些手机品牌都开始做车了。白剑爆料全新NIOPhone"智能汽车和手机
