CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法-人工智能-PHP中文网

首页

科技周边

人工智能

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 05, 2024 pm 03:58 PM

工程单目动态场景

单目动态场景（Monocular Dynamic Scene）是指使用单眼摄像头观察和分析的动态环境，其中物体可以在场景中自由移动。单目动态场景重建在理解环境中的动态变化、预测物体运动轨迹以及生成动态数字资产等任务中具有关键意义。利用单目视觉技术，可以实现动态场景的三维重建和模型估计，帮助我们更好地理解和处理动态环境中的各种情况。这种技术不仅可应用于计算机视觉领域，还可以在自动驾驶、增强现实和虚拟现实等领域发挥重要作用。通过单目动态场景重建，我们可以更准确地捕捉环境中物体的运动

随着以神经辐射场（Neural Radiance Field, NeRF）为代表的神经渲染的兴起，越来越多的工作开始使用隐式表征（implicit representation）进行动态场景的三维重建。尽管基于 NeRF 的一些代表工作，如 D-NeRF，Nerfies，K-planes 等已经取得了令人满意的渲染质量，他们仍然距离真正的照片级真实渲染（photo-realistic rendering）存在一定的距离。

来自浙江大学和字节跳动的研究团队指出，上述问题的核心在于基于光线投射（ray casting）的 NeRF pipeline 通过逆向映射（backward-flow）将观测空间（observation space）映射到规范空间（canonical space）时出现了准确性和清晰性方面的挑战。逆向映射对于学习结构的收敛并不理想，导致目前的方法在 D-NeRF 数据集上仅能达到 30+ 级别的 PSNR 渲染指标。

为了解决这个挑战，该研究团队提出了一种基于光栅化的单目动态场景建模流程。他们首次将变形场与3D高斯结合，创造了一种新的方法，实现了高质量的重建和新视角渲染。这项研究论文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被计算机视觉领域顶级国际学术会议CVPR 2024接受。这项工作中独特的地方在于，它是首个将变形场应用于3D高斯以拓展到单目动态场景的研究。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

项目主页：https://ingra14m.github.io/Deformable-Gaussians/
论文链接：https://arxiv.org/abs/2309.13101
代码：https://github.com/ingra14m/Deformable-3D-Gaussians

实验结果表明，变形场能够有效地将规范空间中的3D高斯前向映射精确地映射到观测空间。在D-NeRF数据集上，实现了10%以上的PSNR提升。此外，在真实场景中即使相机位姿不够准确，也能够增加渲染细节。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

^{图 1 HyperNeRF 真实场景的实验结果。}

相关工作

动态场景重建一直以来是三维重建的热点问题。随着以 NeRF 为代表的神经渲染实现了高质量的渲染，动态重建领域涌现出了一系列以隐式表征作为基础的工作。D-NeRF 和 Nerfies 在 NeRF 光线投射 pipeline 的基础上引入了变形场，实现了稳健的动态场景重建。TiNeuVox，K-Planes 和 Hexplanes 在此基础上引入了网格结构，大大加速了模型的训练过程，渲染速度有一定的提高。然而这些方法都基于逆向映射，无法真正实现高质量的规范空间和变形场的解耦。

3D 高斯泼溅是一种基于光栅化的点云渲染 pipeline。其 CUDA 定制的可微高斯光栅化 pipeline 和创新的致密化使得 3D 高斯不仅实现了 SOTA 的渲染质量，还实现了实时渲染。Dynamic 3D 高斯首先将静态的 3D 高斯拓展到了动态领域。然而，其只能处理多目场景非常严重地制约了其应用于更通用的情况，如手机拍摄等单目场景。

研究思想

Deformable-GS 的核心在于将静态的 3D 高斯拓展到单目动态场景。每一个 3D 高斯携带位置，旋转，缩放，不透明度和 SH 系数用于图像层级的渲染。根据 3D 高斯 alpha-blend 的公式，不难发现，随时间变化的位置，以及控制高斯形状的旋转和缩放是决定动态 3D 高斯的决定性参数。然而，不同于传统的基于点云的渲染方法，3D 高斯在初始化之后，位置，透明度等参数会随着优化不断更新。这给动态高斯的学习增加了难度。

该研究创新性地提出了变形场与 3D 高斯联合优化的动态场景渲染框架。具体来说，该研究将 COLMAP 或随机点云初始化的 3D 高斯视作规范空间，随后通过变形场，以规范空间中 3D 高斯的坐标信息作为输入，预测每一个 3D 高斯随时间变化的位置和形状参数。利用变形场，该研究可以将规范空间的 3D 高斯变换到观测空间用于光栅化渲染。这一策略并不会影响 3D 高斯的可微光栅化 pipeline，经过其计算得到的梯度可以用于更新规范空间 3D 高斯的参数。

此外，引入变形场有利于动作幅度较大部分的高斯致密化。这是因为动作幅度较大的区域变形场的梯度也会相对较高，从而指导相应区域在致密化的过程中得到更精细的调控。即使规范空间 3D 高斯的数量和位置参数在初期也在不断更新，但实验结果表明，这种联合优化的策略可以最终得到稳健的收敛结果。大约经过 20000 轮迭代，规范空间的 3D 高斯的位置参数几乎不再变化。

研究团队发现真实场景的相机位姿往往不够准确，而动态场景更加剧了这一问题。这对于基于神经辐射场的结构来说并不会产生较大的影响，因为神经辐射场基于多层感知机（Multilayer Perceptron，MLP），是一个非常平滑的结构。但是 3D 高斯是基于点云的显式结构，略微不准确的相机位姿很难通过高斯泼溅得到较为稳健地矫正。

为了缓解这个问题，该研究创新地引入了退火平滑训练（Annealing Smooth Training，AST）。该训练机制旨在初期平滑 3D 高斯的学习，在后期增加渲染的细节。这一机制的引入不仅提高了渲染的质量，而且大幅度提高了时间插值任务的稳定性与平滑性。

图 2 展示了该研究的 pipeline，详情请参见论文原文。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

^{图 2 该研究的 pipeline。}

结果展示

该研究首先在动态重建领域被广泛使用的 D-NeRF 数据集上进行了合成数据集的实验。从图 3 的可视化结果中不难看出，Deformable-GS 相比于之前的方法有着非常巨大的渲染质量提升。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

^{图 3 该研究在 D-NeRF 数据集上的定性实验对比结果。}

该研究提出的方法不仅在视觉效果上取得了大幅度的提升，在渲染的定量指标上也有着相应的改进。值得注意的是，研究团队发现 D-NeRF 数据集的 Lego 场景存在错误，即训练集和测试集的场景具有微小的差别。这体现在 Lego 模型铲子的翻转角度不一致。这也是为什么之前方法在 Lego 场景的指标无法提高的根本原因。为了实现有意义的比较，该研究使用了 Lego 的验证集作为指标测量的基准。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

^{图 4 在合成数据集上的定量比较。}

如图 4 所示，该研究在全分辨率（800x800）下对比了 SOTA 方法，其中包括了 CVPR 2020 的 D-NeRF，Sig Asia 2022 的 TiNeuVox 和 CVPR2023 的 Tensor4D，K-planes。该研究提出的方法在各个渲染指标（PSNR、SSIM、LPIPS），各个场景下都取得了大幅度的提高。

该研究提出的方法不仅能够适用于合成场景，在相机位姿不够准确的真实场景也取得了 SOTA 结果。如图 5 所示，该研究在 NeRF-DS 数据集上与 SOTA 方法进行了对比。实验结果表明，即使没有对高光反射表面进行特殊处理，该研究提出的方法依旧能够超过专为高光反射场景设计的 NeRF-DS，取得了最佳的渲染效果。

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

^{图 5 真实场景方法对比。}

虽然 MLP 的引入增加了渲染开销，但是得益于 3D 高斯极其高效的 CUDA 实现与我们紧凑的 MLP 结构，我们依旧能够做到实时渲染。在 3090 上 D-NeRF 数据集的平均 FPS 可以达到 85（400x400），68（800x800）。

此外，该研究还首次应用了带有前向与反向深度传播的可微高斯光栅化管线。如图 6 所示，该深度也证明了 Deformable-GS 也可以得到鲁棒的几何表示。深度的反向传播可以推动日后很多需要使用深度监督的任务，例如逆向渲染（Inverse Rendering），SLAM 与自动驾驶等。

^{图6 深度可视化。}

作者简介

论文第一作者：杨子逸，浙江大学硕士二年级，主要研究方向为三维高斯、神经辐射场、实时渲染等。

论文其他作者：高新宇，浙江大学硕士三年级，主要研究方向为神经辐射场，隐式场景组合。

张宇晴：浙江大学硕士二年级，主要研究方向为 3D 生成，逆向渲染。

论文通讯作者为浙江大学计算机科学与技术学院金小刚教授。

Email: jin@cad.zju.edu.cn
个人主页：http://www.cad.zju.edu.cn/home/jin/

以上是CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7465

CakePHP 教程

1376

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

ControlNet作者又出爆款！一张图生成绘画全过程，两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频，PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了！这次瞄准绘画领域。新项目PaintsUndo刚上线不久，就收获1.4kstar（还在疯狂涨）。项目地址：https://github.com/lllyasviel/Paints-UNDO通过该项目，用户输入一张静态图像，PaintsUndo就能自动帮你生成整个绘画的全过程视频，从线稿到成品都有迹可循。绘制过程，线条变化多端甚是神奇，最终视频结果和原图像非常相似：我们再来看一个完整的绘

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RL

登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校（UIUC）张令明老师团队，包括：StevenXia，四年级博士生，研究方向是基于AI大模型的自动代码修复；邓茵琳，四年级博士生，研究方

OpenAI超级对齐团队遗作：两个大模型博弈一番，输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂，你敢用吗？随着机器学习系统在更重要的领域得到应用，证明为什么我们可以信任它们的输出，并明确何时不应信任它们，变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是，要求系统对其输出产生一种解释，这种解释对人类或另一个受信任的系统来说是可读的，即可以完全理解以至于任何可能的错误都可以被发现。例如，为了建立对司法系统的信任，我们要求法院提供清晰易读的书面意见，解释并支持其决策。对于大型语言模型来说，我们也可以采用类似的方法。不过，在采用这种方法时，确保语言模型生

公理训练让LLM学会因果推理：6700万参数模型比肩万亿参数级GPT-4 Jul 17, 2024 am 10:14 AM

把因果链展示给LLM，它就能学会公理。AI已经在帮助数学家和科学家做研究了，比如著名数学家陶哲轩就曾多次分享自己借助GPT等AI工具研究探索的经历。AI要在这些领域大战拳脚，强大可靠的因果推理能力是必不可少的。本文要介绍的这项研究发现：在小图谱的因果传递性公理演示上训练的Transformer模型可以泛化用于大图谱的传递性公理。也就是说，如果让Transformer学会执行简单的因果推理，就可能将其用于更为复杂的因果推理。该团队提出的公理训练框架是一种基于被动数据来学习因果推理的新范式，只有演示

黎曼猜想显着突破！陶哲轩强推MIT、牛津新论文，37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近，被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题，与素数分布的精确性质有关（素数是那些只能被1和自身整除的数字，它们在数论中扮演着基础性的角色）。在当今的数学文献中，已有超过一千条数学命题以黎曼猜想（或其推广形式）的成立为前提。也就是说，黎曼猜想及其推广形式一旦被证明，这一千多个命题将被确立为定理，对数学领域产生深远的影响；而如果黎曼猜想被证明是错误的，那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

arXiv论文可以发「弹幕」了，斯坦福alphaXiv讨论平台上线，LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯！当论文讨论细致到词句，是什么体验？最近，斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv，可以直接在任何arXiv论文之上发布问题和评论。网站链接：https://alphaxiv.org/其实不需要专门访问这个网站，只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文：可以精准定位到论文中的段落、句子：右侧讨论区，用户可以发表问题询问作者论文思路、细节，例如：也可以针对论文内容发表评论，例如：「给出至

无限生成视频，还能规划决策，扩散强制整合下一token预测与全序列扩散 Jul 23, 2024 pm 02:05 PM

当前，采用下一token预测范式的自回归大型语言模型已经风靡全球，同时互联网上的大量合成图像和视频也早已让我们见识到了扩散模型的强大之处。近日，MITCSAIL的一个研究团队（一作为MIT在读博士陈博远）成功地将全序列扩散模型与下一token模型的强大能力统合到了一起，提出了一种训练和采样范式：DiffusionForcing（DF）。论文标题：DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion论文地址：https:/

See all articles

CVPR 2024满分论文：浙大提出基于可变形三维高斯的高质量单目动态重建新方法

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题