目录
背景
表征可靠性建模相关工作
方法
训练方式
结果
应用
首页 科技周边 人工智能 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架

图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架

Apr 14, 2023 pm 04:31 PM
系统 训练

本文介绍被机器学习顶级国际会议 AAAI 2023 接收的论文 《Improving Training and Inference of Face Recognition Models via Random Temperature Scaling》。论文创新性地从概率视角出发,对分类损失函数中的温度调节参数和分类不确定度的内在关系进行分析,揭示了分类损失函数的温度调节因子是服从 Gumbel 分布的不确定度变量的尺度系数。从而提出一个新的被叫做 RTS 的训练框架对特征抽取的可靠性进行建模。基于 RTS 训练框架来训练更可靠的识别模型,使训练过程更加稳定,并在部署时提供一个对样本不确定度的度量分值,以拒识高不确定的样本,帮助建立更鲁棒的视觉识别系统。大量的实验表明 RTS 可以稳定训练并输出不确定度度量值来建立鲁棒的视觉识别系统。

图片


  • 论文地址:https://arxiv.org/abs/2212.01015
  • 开源模型:https://modelscope.cn/models/damo/cv_ir_face-recognition-ood_rts/summary

背景

不确定性问题:视觉识别系统在真实场景中通常会遇到多种干扰。例如:遮挡(装饰物或者复杂的前景),成像模糊(焦点模糊或者运动模糊),极端光照(过曝或者曝光不足等)。可以把这些干扰都归纳为噪声的影响,此外还有误检图片,通常有猫脸或狗脸等,这些误检测的数据被称作 out-of-distribution(OOD)数据。对于视觉识别来说,上述的噪声和 OOD 数据都构成了不确定性的来源,受到影响的样本会在基于深度模型提取的特征上叠加不确定性,给视觉识别系统带来干扰。例如若底库图被不确定干扰的样本污染,会形成 “特征黑洞”,给视觉识别系统带来隐患。因此需要对表征可靠性进行建模。

表征可靠性建模相关工作

传统多模型解法

传统的在视觉识别链路中对可靠性进行控制的方法是通过一个独立的质量模型完成的。典型的图像质量建模的方式如下:

1、收集标注数据进行具体影响质量因素的标注,比如清晰度如何,有无遮挡以及姿态如何。

2、根据影响因素的标注 label 进行和 1~10 质量分的映射,分数越高对应的质量越好,具体示例可以参考下图左侧示例。

3、由前两步操作得到质量分的标注后进行有序回归训练,从而在部署阶段对质量分进行预测,如下图右侧示例。

图片

独立质量模型的方案在视觉识别的链路中需引入新的模型,且训练依赖标注信息。

DUL

不确定度建模的方法有「Data Uncertainty Learning in Face Recognition」,把特征建模为高斯分布均值和方差的加和,把包含不确定性的特征送入之后的分类器进行训练。从而可以在部署阶段得到和图像质量相关的不确定度的分值。

图片

DUL 用加和的方式描述不确定度,噪声估计值的尺度也和某一类数据的特征分布紧密程度相关。如果数据分布是比较紧密的,那么 DUL 估计出的噪声的尺度也是比较小的。在 OOD 领域的工作指出,数据分布的密度对于 OOD 识别来说不是一个好的度量方式。

GODIN

OOD 领域的工作「Generalized odin: Detecting out-of-distribution image without learning from out-of-distribution data」用联合概率分布的形式处理 OOD 数据,分别用两个独立的分支 h(x) 和 g(x) 估计分类概率值和温度调节值。

图片

由于温度值被建模为概率值,范围被限制在 0-1 之间,对温度没有进行更好的建模。

方法

针对上述问题和相关工作,本文从概率视角出发,对分类损失函数中的温度调节因子和不确定度之间的关联进行分析,提出了 RTS 训练框架。

图片

基于概率视角对温度调节因子进行分析

首先对温度调节因子和不确定度之间的关联进行分析。设不确定度图片是符合标准 Gumbel 分布的随机变量,则概率密度函数可以写为

图片,累积分布函数为图片分类为 k 类的概率值为:

图片

将 图片带入上式可以得到:

图片

可以看到,分类为 k 类的概率值就是符合 softmax 函数的分值,同时我们可以用一个 t 来调节不确定度的尺度,即,则符合标准 Gumbel 分布:

图片

可以看到,此时分类为 k 类的概率值就是符合带温度调节值为 t 的 softmax 函数的分值。

对温度进行建模

为了减少不确定度估计对分类的影响,温度 t 需要在 1 附近,因此我们把温度 t 建模为图片个独立 gamma 分布变量的和:图片式中图片,这样 t 服从图片

,beta = frac {alpha - 1}{v})$ 分布。v 和图片对分布的影响如下图。

图片

对温度建模的约束在训练中用下述的正则项实现

图片

训练方式

整体的算法整理为:

图片

更多详细的分析和理论证明请参见论文。

结果

在训练阶段,训练数据只包含 face 训练数据的。误检测的猫脸和狗脸的 OOD 数据,用来在测试时验证对 OOD 数据的识别效果和测试说明 OOD 样本不确定度在训练过程中不同阶段的动态过程。

训练阶段

我们画出了 in-distribution 数据(face)和 out-of-distribution 数据(误检测为 face 的猫脸和狗脸)在不同 epoch 数的不确定度分值,从下图可以看到初始阶段所有样本的不确定度分值都分布在较大值的附近,随着训练的进行,OOD 样本的不确定性逐渐升高,face 数据的不确定度逐渐降低,且 face 质量越好,不确定度就越低。通过设置阈值可以区分 ID 数据和 OOD 数据,且通过不确定度的分值反应图像质量。

图片

为了说明在训练阶段对噪声训练数据的鲁棒性。本文对训练集施加不同比例的噪声,基于不同比例噪声训练数据的模型识别效果如下表,可以看到 RTS 对基于噪声数据的训练也能得到较好的识别效果。

图片

部署阶段

下图表明在部署阶段 RTS 框架得到的不确定度分值和 face 质量呈现高相关性

图片

同时在 benchmark 上绘制了去掉低质量样本之后的错误匹配曲线。根据得到的不确定度分值,按照不确定度从高到底的顺序把 benchmark 中不确定度较高的样本去除,然后绘制剩下样本的错误匹配曲线。从下图可以看到,随着过滤的不确定性较高的样本越多,错误匹配是越少的,而去掉相同数量的不确定性样本时,RTS 的错误匹配更少。

图片

为了验证不确定度分值对 OOD 样本的识别效果,在测试时构建 in-distribution 数据集(face)和 out-of-distribution 数据集(误检测为 face 的猫脸和狗脸)。数据样例如下。

图片

我们从两个方面来说明 RTS 的效果。首先绘制不确定度的分布图,从下图可以看到,RTS 方法对 OOD 数据具有较强的区分能力。

图片

同时还绘制了 OOD 测试集上的 ROC 曲线,计算了 ROC 权限的 AUC 值,可以看到 RTS 的不确定度分值对 OOD 数据可以较好的识别。

图片

图片

通用识别能力

在 benchmark 上测试通用识别能力,RTS 在不影响 face 识别能力的基础上增加了对 OOD 数据的识别能力。使用 RTS 算法可以在识别和 OOD 数据识别上取得一个均衡的结果。

图片

图片

应用

本文模型已在 modelscope 开源。另外给大家介绍下 CV 域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验):

1.https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary

2.https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary

3.https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary

4.https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary

5.https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary

6.https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary

7.https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary

8. https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary

9.https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary

10.https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary

11.https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary

12.https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary

以上是图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

CUDA之通用矩阵乘法:从入门到熟练! CUDA之通用矩阵乘法:从入门到熟练! Mar 25, 2024 pm 12:30 PM

通用矩阵乘法(GeneralMatrixMultiplication,GEMM)是许多应用程序和算法中至关重要的一部分,也是评估计算机硬件性能的重要指标之一。通过深入研究和优化GEMM的实现,可以帮助我们更好地理解高性能计算以及软硬件系统之间的关系。在计算机科学中,对GEMM进行有效的优化可以提高计算速度并节省资源,这对于提高计算机系统的整体性能至关重要。深入了解GEMM的工作原理和优化方法,有助于我们更好地利用现代计算硬件的潜力,并为各种复杂计算任务提供更高效的解决方案。通过对GEMM性能的优

开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! 开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

华为干昆 ADS3.0 智驾系统 8 月上市 享界 S9 首发搭载 华为干昆 ADS3.0 智驾系统 8 月上市 享界 S9 首发搭载 Jul 30, 2024 pm 02:17 PM

7月29日,在AITO问界第四十万台新车下线仪式上,华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东出席发表演讲并宣布,问界系列车型将于今年8月迎来华为干昆ADS3.0版本的上市,并计划在8月至9月间陆续推送升级。 8月6日即将发布的享界S9将首发华为ADS3.0智能驾驶系统。华为干昆ADS3.0版本在激光雷达的辅助下,将大幅提升智驾能力,具备融合端到端的能力,并采用GOD(通用障碍物识别)/PDP(预测决策规控)全新端到端架构,提供车位到车位智驾领航NCA功能,并升级CAS3.0全

你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中,这一问题尤为突出。一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。模型是啥?中关村论坛上刚刚露面的多模态大模型Awaker1.0。团队是谁?智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高

快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 Jun 11, 2024 am 09:51 AM

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影

苹果16系统哪个版本最好 苹果16系统哪个版本最好 Mar 08, 2024 pm 05:16 PM

苹果16系统中版本最好的是iOS16.1.4,iOS16系统的最佳版本可能因人而异添加和日常使用体验的提升也受到了很多用户的好评。苹果16系统哪个版本最好答:iOS16.1.4iOS16系统的最佳版本可能因人而异。根据公开的消息,2022年推出的iOS16被认为是一个非常稳定且性能优越的版本,用户对其整体体验也相当满意。此外,iOS16中新功能的添加和日常使用体验的提升也受到了很多用户的好评。特别是在更新后的电池续航能力、信号表现和发热控制方面,用户的反馈都比较积极。然而,考虑到iPhone14

美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次 美国空军高调展示首个AI战斗机!部长亲自试驾全程未干预,10万行代码试飞21次 May 07, 2024 pm 05:00 PM

最近,军事圈被这个消息刷屏了:美军的战斗机,已经能由AI完成全自动空战了。是的,就在最近,美军的AI战斗机首次公开,揭开了神秘面纱。这架战斗机的全名是可变稳定性飞行模拟器测试飞机(VISTA),由美空军部长亲自搭乘,模拟了一对一的空战。5月2日,美国空军部长FrankKendall在Edwards空军基地驾驶X-62AVISTA升空注意,在一小时的飞行中,所有飞行动作都由AI自主完成!Kendall表示——在过去的几十年中,我们一直在思考自主空对空作战的无限潜力,但它始终显得遥不可及。然而如今,

See all articles