首页 科技周边 人工智能 高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

Oct 27, 2023 pm 12:13 PM
工程 asm iccv-2023 3d 人脸重建

3D 人脸重建是一项广泛应用于游戏影视制作、数字人、AR/VR、人脸识别和编辑等领域的关键技术,其目标是从单张或多张图像中获取高质量的 3D 人脸模型。借助摄影棚中的复杂拍摄系统,当前业界成熟方案已可得到媲美真人的毛孔级精度的重建效果 [2],但其制作成本高、周期长,一般仅用于 S 级影视或游戏项目。

近年,基于低成本人脸重建技术的交互玩法(如游戏角色捏脸玩法、AR/VR 虚拟形象生成等)受到市场欢迎。用户只需输入日常可获取的图片,如手机拍摄的单张或多张图片,即可快速得到 3D 模型。但现有方法成像质量不可控,重建结果精度较低,无法表达人脸细节 [3-4]。如何在低成本条件下得到高保真 3D 人脸,仍是一个未解的难题。

人脸重建的第一步是定义人脸表达方式,但现有主流的人脸参数化模型表达能力有限,即使有更多约束信息,如多视角图片,重建精度也难以提升。因此,腾讯 AI Lab 提出了一种改进的自适应骨骼 - 蒙皮模型(Adaptive Skinning Model,以下简称 ASM)作为参数化人脸模型使用,利用人脸先验,以高斯混合模型来表达人脸蒙皮权重,极大降低参数量使其可自动求解。

测试表明,ASM 方法在不需要训练的前提下仅使用少量的参数,即显著提升了人脸的表达能力及多视角人脸重建精度,创新了 SOTA 水平。相关论文已被 ICCV-2023 接收,以下为论文详细解读。

论文题目:ASM: Adaptive Skinning Model for High-Quality 3D Face Modeling

高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

论文链接:https://arxiv.org/pdf/2304.09423.pdf

研究挑战:低成本、高精度的 3D 人脸重建难题

从 2D 图像得到信息量更大的 3D 模型,属于欠定问题存在无穷多解。为了使其可解,研究者将人脸先验引入重建,降低求解难度的同时能以更少的参数来表达人脸 3D 形状,即参数化人脸模型。当前大部分参数化人脸模型都是基于 3D Morphable Model (3DMM) 及其改进版,3DMM 是 Blanz 和 Vetter 在 1999 年首次提出的参数化人脸模型 [5]。文章假设一张人脸可以通过多个不同的人脸线性或非线性组合得到,通过收集数百个真实人脸的高精度 3D 模型构建人脸基底库,进而组合参数化人脸来表达新的人脸模型。后续研究通过收集更多样的真实人脸模型 [6, 7],以及改进降维方法来优化 3DMM [8, 9]。

然而,3DMM 类人脸模型的鲁棒性高但表达能力不足。尽管他能够在输入图像模糊或有遮挡的情况下稳定地生成精度一般的人脸模型,但当使用多张高质量图像作为输入时,3DMM 表达能力有限,不能利用上更多的输入信息,因此限制了重建精度。这种限制源于两方面,一是方法本身的局限性,二是该方法依赖于人脸模型数据的收集,不仅数据获取成本高,且因人脸数据的敏感性,在实际应用中也难以广泛复用。

ASM 方法:重新设计骨骼 - 蒙皮模型

为了解决现有 3DMM 人脸模型表达能力不足的问题,本文引入了游戏业界常用的 “骨骼 - 蒙皮模型” 作为基准人脸表达方式。骨骼 - 蒙皮模型是游戏与动画制作过程中表达游戏人物角色脸型与表情的一种常见的人脸建模方式。它通过虚拟的骨骼点与人脸上的 Mesh 顶点相连,由蒙皮权重决定骨骼对 Mesh 顶点的影响权重,使用时只需要控制骨骼的运动即可间接控制 Mesh 顶点的运动。

通常情况下,骨骼 - 蒙皮模型需要动画师进行精确的骨骼放置与蒙皮权重绘制,具有高制作门槛与长制作周期的特点。但是现实的人脸中不同的人骨骼与肌肉的形状具有较大差异,一套固定的骨骼 - 蒙皮系统难以表达现实中多种多样的脸型,为此,本文在现有的骨骼 - 蒙皮基础上进行进一步设计,提出了自适应骨骼 - 蒙皮模型 ASM,基于高斯混合蒙皮权重(GMM Skinning Weights)与动态骨骼绑定系统(Dynamic Bone Binding)进一步提高了骨骼 - 蒙皮的表达能力与灵活度,为每一个目标人脸自适应生成独有的骨骼 - 蒙皮模型,以表达更为丰富的人脸细节

为了提高骨骼 - 蒙皮模型对于建模不同人脸时的表达能力,ASM 对骨骼 - 蒙皮模型的建模方式进行了全新的设计。

高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

                                  图 1:ASM 整体框架

骨骼 - 蒙皮系统通常基于线性混合蒙皮(Linear Blend Skinning, LBS)算法,通过控制骨骼的运动(旋转、平移、缩放)来控制 Mesh 顶点的变形。传统的骨骼 - 蒙皮包含两个部分,即蒙皮权重矩阵与骨骼绑定,ASM 对这两部分分别进行了参数化,以实现自适应的骨骼 - 蒙皮模型。接下来会分别介绍蒙皮权重矩阵与骨骼绑定的参数化建模方法。

高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

                                公式 1:传统骨骼 - 蒙皮模型的 LBS 公式

高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

                               公式 2:ASM 的 LBS 公式

高斯混合蒙皮权重(GMM Skinning Weights)

蒙皮权重矩阵是一个 mxn 维的矩阵,其中 m 为骨骼数量,n 为 Mesh 上的顶点数量,该矩阵用于存放每一根骨骼对每一个 Mesh 顶点的影响系数。一般来说蒙皮权重矩阵是高度稀疏的,例如在 Unity 中,每个 Mesh 顶点只会被最多 4 根骨骼影响,除了这 4 根骨骼外,其余骨骼对该顶点的影响系数为 0。传统的骨骼 - 蒙皮模型中蒙皮权重由动画师绘制得到,并且蒙皮权重一旦得到,在使用时将不再发生改变。近年来有工作 [1] 尝试结合大量数据与神经网络学习如何自动生成蒙皮权重,但这样的方案有两个问题,一是训练神经网络需要较大量的数据,如果是 3D 人脸或者蒙皮权重的数据则更难获得;二是使用神经网络建模蒙皮权重存在较为严重的参数冗余。是否存在一种蒙皮权重的建模方式,在不需要训练的前提下使用少量的参数即可完整表达整张人脸的蒙皮权重呢?

通过观察常见的蒙皮权重可发现以下性质:1. 蒙皮权重局部光滑;2. 离当前骨骼位置越远的 Mesh 顶点,对应的蒙皮系数通常也越小;而这样的性质与高斯混合模型(GMM)非常吻合。于是本文提出了高斯混合蒙皮权重(GMM Skinning Weights)将蒙皮权重矩阵建模为基于顶点与骨骼某个距离函数的高斯混合函数,这样就能使用一组 GMM 系数表达特定骨骼的蒙皮权重分布。为了进一步压缩蒙皮权重的参数量,我们将整个人脸 Mesh 从三维空间转移到 UV 空间,从而只需要使用二维 GMM 并且使用顶点到骨骼的 UV 距离就能计算出当前骨骼对特定顶点的蒙皮权重系数。

动态骨骼绑定(Dynamic Bone Binding)

对蒙皮权重进行参数化建模不仅使我们能用少量参数表达蒙皮权重矩阵,还使我们在运行时(Run-Time)调整骨骼绑定位置成为了可能,由此,本文提出了动态骨骼绑定(Dynamic Bone Binding)的方法。与蒙皮权重相同,本文将骨骼的绑定位置建模为 UV 空间上的一个坐标点,并且能够在 UV 空间中任意移动。对于人脸 Mesh 的顶点,能够通过很简单地通过预定义好的 UV 映射关系将顶点映射为 UV 空间上的一个固定坐标。但是骨骼并没有预先定义在 UV 空间中,为此我们需要将绑定的骨骼从三维空间转移到 UV 空间上。本文中这个步骤通过对骨骼与周围顶点进行坐标插值实现,我们将计算得到的插值系数应用在顶点的 UV 坐标上,就能获得骨骼的 UV 坐标。反过来也一样,当需要将骨骼坐标从 UV 空间转移到三维空间时,我们同样计算当前骨骼的 UV 坐标与临近顶点的 UV 坐标的插值系数,并将该插值系数应用到三维空间中同样的顶点三维坐标上,即可插值出对应骨骼的三维空间坐标。

通过这种建模方式,我们将骨骼的绑定位置与蒙皮权重系数都统一为了 UV 空间中的一组系数。当使用 ASM 时,我们将人脸 Mesh 顶点的形变转变为求解 UV 空间中骨骼绑定位置的偏移系数、UV 空间中的高斯混合蒙皮系数与骨骼运动系数三者的组合,极大地提高了骨骼 - 蒙皮模型的表达能力,实现更为丰富的人脸细节的生成

高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

                                   表 1:ASM 每根骨骼的参数维度

研究结果:人脸表达能力与多视角重建精度达到 SOTA 水平

对比不同参数化人脸模型的表达能力

我们使用参数化人脸模型注册高精度人脸扫描模型的方式(Registration),将 ASM 与传统的基于 PCA 方法的 3DMM(BFM [6],FLAME [7],FaceScape [10])、基于神经网络降维方法的 3DMM(CoMA [8], ImFace [9])以及业界前沿的骨骼 - 蒙皮模型(MetaHuman)进行了对比。结果指出,ASM 在 LYHM 与 FaceScape 两个数据集上的表达能力均达到了 SOTA 水平。

高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

                                       表 2:LYHM 与 FaceScape 的 registration 精度

高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

                                        图 2:LYHM 与 FaceScape 上 registration 精度的误差分布

高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

                                   图 3:LYHM 与 FaceScape 上 registration 的可视化结果与误差热力图

多视角人脸重建中的应用

我们使用了 Florence MICC 的数据集测试了 ASM 在多视角人脸重建任务上的表现,在 Coop(室内近距离摄像头,人物无表情)测试集上的重建精度达到了 SOTA 水平。

高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

                                     图 4:Florence MICC 数据集上的 3D 人脸重建结果

我们还在 FaceScape 数据集上测试了多视角重建任务中图片数量对重建结果的影响,结果可以看到当图片数量在 5 张左右时 ASM 相比其他的人脸表达方式能够实现最高的重建精度。

高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

                                    表 3:FaceScape 上不同输入数量的多视角重建结果精度

高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读

                                        图 5:FaceScape 上不同输入数量的多视角重建可视化结果与误差热力图

总结及展望

在低成本条件下获得高保真人脸这一行业难题上,本研究迈出了重要一步。我们提出的新参数化人脸模型显著增强了人脸表达能力,将多视角人脸重建的精度上限提升到了新的高度。该方法可用于游戏制作中的 3D 角色建模、自动捏脸玩法,以及 AR/VR 中的虚拟形象生成等众多领域。

在人脸表达能力得到显着提升之后,如何从多视角图片中构建更强的一致性约束,以进一步提高重建结果的精度,成为了当前人脸重建领域的新瓶颈、新挑战。这也将是我们未来的研究方向。

参考文献

[1] Noranart Vesdapunt, Mitch Rundle, HsiangTao Wu, and Baoyuan Wang. Jnr: Joint-based neural rig representation for compact 3d face modeling. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII 16, pages 389–405. Springer, 2020.

[2] Thabo Beeler, Bernd Bickel, Paul Beardsley, Bob Sumner, and Markus Gross. High -quality single-shot capture of facial geometry. In ACM SIGGRAPH 2010 papers, pages 1–9. 2010.

[3] Yu Deng, Jiaolong Yang, Sicheng Xu, Dong Chen, Yunde Jia, and Xin Tong. Accurate 3d face reconstruction with weakly-supervised learning: From single image to image set. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, pages 0–0, 2019.

[4] Yao Feng, Haiwen Feng, Michael J Black, and Timo Bolkart. Learning an animatable detailed 3d face model from in-the-wild images. ACM Transactions on Graphics (ToG), 40 (4):1–13, 2021.

[5 ] Volker Blanz and Thomas Vetter. A morphable model for the synthesis of 3d faces. In Proceedings of the 26th annual conference on Computer graphics and interactive techniques, pages 187–194, 1999.

[6] Pascal Paysan, Reinhard Knothe , Brian Amberg, Sami Romdhani, and Thomas Vetter. A 3d face model for pose and illumination invariant face recognition. In 2009 sixth IEEE international conference on advanced video and signal based surveillance, pages 296–301. Ieee, 2009.

[7] Tianye Li, Timo Bolkart, Michael J Black, Hao Li, and Javier Romero. Learning a model of facial shape and expression from 4d scans. ACM Trans. Graph., 36 (6):194–1, 2017.

[8] Anurag Ranjan, Timo Bolkart, Soubhik Sanyal, and Michael J Black. Generating 3d faces using convolutional mesh autoencoders. In Proceedings of the European conference on computer vision (ECCV), pages 704–720, 2018.

[9] Mingwu Zheng, Hongyu Yang, Di Huang, and Liming Chen. Imface: A nonlinear 3d morphable face model with implicit neural representations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 20343–20352 , 2022.

[10] Haotian Yang, Hao Zhu, Yanru Wang, Mingkai Huang, Qiu Shen, Ruigang Yang, and Xun Cao. Facescape: a large-scale high quality 3d face dataset and detailed riggable 3d face prediction. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 601–610, 2020.

以上是高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频,PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了!这次瞄准绘画领域。新项目PaintsUndo刚上线不久,就收获1.4kstar(还在疯狂涨)。项目地址:https://github.com/lllyasviel/Paints-UNDO通过该项目,用户输入一张静态图像,PaintsUndo就能自动帮你生成整个绘画的全过程视频,从线稿到成品都有迹可循。绘制过程,线条变化多端甚是神奇,最终视频结果和原图像非常相似:我们再来看一个完整的绘

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RL

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:StevenXia,四年级博士生,研究方向是基于AI大模型的自动代码修复;邓茵琳,四年级博士生,研究方

OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂,你敢用吗?随着机器学习系统在更重要的领域得到应用,证明为什么我们可以信任它们的输出,并明确何时不应信任它们,变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是,要求系统对其输出产生一种解释,这种解释对人类或另一个受信任的系统来说是可读的,即可以完全理解以至于任何可能的错误都可以被发现。例如,为了建立对司法系统的信任,我们要求法院提供清晰易读的书面意见,解释并支持其决策。对于大型语言模型来说,我们也可以采用类似的方法。不过,在采用这种方法时,确保语言模型生

arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯!当论文讨论细致到词句,是什么体验?最近,斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv,可以直接在任何arXiv论文之上发布问题和评论。网站链接:https://alphaxiv.org/其实不需要专门访问这个网站,只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文:可以精准定位到论文中的段落、句子:右侧讨论区,用户可以发表问题询问作者论文思路、细节,例如:也可以针对论文内容发表评论,例如:「给出至

公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4 公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4 Jul 17, 2024 am 10:14 AM

把因果链展示给LLM,它就能学会公理。AI已经在帮助数学家和科学家做研究了,比如著名数学家陶哲轩就曾多次分享自己借助GPT等AI工具研究探索的经历。AI要在这些领域大战拳脚,强大可靠的因果推理能力是必不可少的。本文要介绍的这项研究发现:在小图谱的因果传递性公理演示上训练的Transformer模型可以泛化用于大图谱的传递性公理。也就是说,如果让Transformer学会执行简单的因果推理,就可能将其用于更为复杂的因果推理。该团队提出的公理训练框架是一种基于被动数据来学习因果推理的新范式,只有演示

黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题,与素数分布的精确性质有关(素数是那些只能被1和自身整除的数字,它们在数论中扮演着基础性的角色)。在当今的数学文献中,已有超过一千条数学命题以黎曼猜想(或其推广形式)的成立为前提。也就是说,黎曼猜想及其推广形式一旦被证明,这一千多个命题将被确立为定理,对数学领域产生深远的影响;而如果黎曼猜想被证明是错误的,那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

LLM用于时序预测真的不行,连推理能力都没用到 LLM用于时序预测真的不行,连推理能力都没用到 Jul 15, 2024 pm 03:59 PM

语言模型真的能用于时序预测吗?根据贝特里奇头条定律(任何以问号结尾的新闻标题,都能够用「不」来回答),答案应该是否定的。事实似乎也果然如此:强大如斯的LLM并不能很好地处理时序数据。时序,即时间序列,顾名思义,是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域,时序分析都很关键,包括疾病传播预测、零售分析、医疗和金融。在时序分析领域,近期不少研究者都在研究如何使用大型语言模型(LLM)来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

See all articles