首页 科技周边 人工智能 高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪

高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪

Aug 05, 2024 pm 08:15 PM
nerf 理论

高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
请注意,上述动图完全是由多张照片渲染出来的 3D 场景。人类很难发现它们的破绽。

那让我们一起看看,这种场景是怎样实现的。

网格和点是最常见的三维场景表示法,因为它们是显式的,非常适合基于 GPU/CUDA 的快速光栅化。相比之下,最新的神经辐射场(NeRF)方法建立在连续场景表征的基础上,通常使用体积光线渲染优化多层感知器(MLP),对捕捉到的场景进行新视角合成。虽然这些方法的连续性有助于优化,但渲染所需的随机取样成本很高,而且会产生噪声。 

来自法国蔚蓝海岸大学的研究者引入了一种新方法,能够结合这两种方法的优点:3D 高斯表征有着 SOAT 视觉质量,并且在训练时间上也进行了优化,而基于 tile 的抛雪球算法(tile-based splatting)在几个数据集上以 1080p 分辨率实现 SOTA 实时渲染。
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
论文地址:https://huggingface.co/papers/2308.04079
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
研究团队立下目标:对多张照片拍摄的场景进行实时渲染,并在典型真实场景中实现时间最优化。此前,Fridovich-Kei 等人提出的方法虽然实现了快速训练,但难以达到当前 SOTA NeRF 方法所获得的视觉质量,而后者需要长达 48 小时的训练时间。还有研究提出快速但质量较低的辐射场方法,可以根据场景实现交互式渲染(每秒 10-15 帧),但这种方法无法实现高分辨率下的实时渲染。

接下来,我们来看本文是如何实现的。

方法

研究团队的解决方案主要由三个部分组成。

第一,引入 3D 高斯作为一种灵活而富有表现力的场景表征。输入与 NeRF 方法类似,即使用结构 - 运动(SfM)校准像机,并且使用稀疏点云初始化 3D 高斯集合,点云来自 SfM 过程。此外,该研究只用 SfM 点作为输入就能获得高质量的结果。需要注意的是,对于 NeRF 合成数据集,即使采用随机初始化,本文方法也能获得高质量的结果。研究表明,3D 高斯是一个很好的选择。

第二,优化 3D 高斯属性,即 3D 位置、不透明度?、各向异性协方差和球谐波(SH)系数。优化过程产生了一个相当紧凑、非结构化和精确的场景表征。

第三,实时渲染解决方案,该研究使用快速 GPU 排序算法。不过,由于采用了 3D 高斯表征,可以在遵循可见度排序的情况下进行各向异性拼接,这要归功于排序和?- blending— 并通过跟踪所需的尽可能多排序拼接的遍历,实现快速准确的向后传递。
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
方法概览

综上,本文做出了以下贡献:

  • 引入各向异性 3D 高斯作为辐射场的高质量、非结构化表征;
  • 3D 高斯属性的优化方法,与自适应密度控制交织在一起,为捕捉到的场景创建高质量的表征;
  • 针对 GPU 的快速可微分渲染方法,该方法具有可视性感知功能,允许各向异性拼接和快速反向传播,以实现高质量的新视图合成。
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
实验

下图显示了本文的方法与以往方法效果的比较。
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
场景自上而下依次为来自 Mip-NeRF360 数据集的自行车、花园、柜台和房间;来自深度混合数据集的游戏室(更多对比请阅读原文)。图中把不同方法产生的显着差异已经标出,如自行车的辐条、花园远处的房屋玻璃、铁篮子的杆子以及玩具小熊。

可以观察出,本文的方法相比以往的方法在细节上更具有优势。

高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
视频中可以看到更加明显的区别

除此之外,在图6 中我们可以看到,即使迭代7K 次(∼ 5 分钟),本文方法也能很好地捕捉列车的细节。在迭代 30K 次(∼35 分钟)时,背景伪影明显减少。对于花园场景,差异几乎不明显,7K 次迭代(∼8 分钟)已经是非常高的质量了。
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
研究团队采用Mip-NeRF360 建议的方法,将数据集分为训练/ 测试两部分,每隔8 张照片进行测试,以便进行一致且有意义的比较,从而生成误差指标,并使用文献中最常用的标准PSNR、L-PIPS 和SSIM 指标,详细数据见表1。
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
表 1 展现了通过三个数据集计算得出的新方法与之前的工作相比的定量评估。标有「†」的结果直接采用了原论文,其他结果均为该实验团队的实验结果。
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
合成 NeRF 的 PSNR 分数。可以看到本文方法在多数情况下分数都较好,甚至达到最优。

消融实验

研究团队将所做的不同贡献和算法选择分离出来,并构建了一组实验来衡量它们的效果。对算法的以下几个方面进行了测试:从 SfM 初始化、致密化策略、各向异性协方差、允许无限数量的斑块具有梯度以及球谐波的使用。下表总结了每种选择的定量效果。
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
我们来看看更直观的效果。
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
使用 SfM 点进行初始化会产生更好的效果。
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
Clone 和 Split 两种情况下的消融致密化策略
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
限制接受渐变的点的数量,对视觉质量影响是显着的。左图:限制接收梯度的 10 个高斯点。右图:本文的完整方法。 

想要了解更多详细内容,请阅读原文。

以上是高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

突破传统缺陷检测的界限,\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。 突破传统缺陷检测的界限,\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。 Jul 26, 2024 pm 05:38 PM

在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“DefectSpectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“DefectSpectrum”数据集提供了最多的缺陷标注(5438张缺陷样本),最细致的缺陷分类(125种缺陷类别

英伟达对话模型ChatQA进化到2.0版本,上下文长度提到128K 英伟达对话模型ChatQA进化到2.0版本,上下文长度提到128K Jul 26, 2024 am 08:40 AM

开放LLM社区正是百花齐放、竞相争鸣的时代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是,相比于以GPT-4-Turbo为代表的专有大模型,开放模型在很多领域依然还有明显差距。在通用模型之外,也有一些专精关键领域的开放模型已被开发出来,比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

数百万晶体数据训练,解决晶体学相位问题,深度学习方法PhAI登Science 数百万晶体数据训练,解决晶体学相位问题,深度学习方法PhAI登Science Aug 08, 2024 pm 09:22 PM

编辑|KX时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员,开发了一种解决晶体相问题的深度学习方法PhAI,利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络,可以生成准确的电子密度图。研究表明,这种基于深度学习的从头算结构解决方案方法,可以以仅2埃的分辨率解决相位问题,该分辨率仅相当于原子分辨率可用数据的10%到20%,而传统的从头算方

谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back 谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back Jul 26, 2024 pm 02:40 PM

对于AI来说,奥数不再是问题了。本周四,谷歌DeepMind的人工智能完成了一项壮举:用AI做出了今年国际数学奥林匹克竞赛IMO的真题,并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道,获得28分,达到了银牌水平。本月初,UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛(AIMO进步奖),没想到7月还没过,AI的做题水平就进步到了这种水平。IMO上同步做题,做对了最难题IMO是历史最悠久、规模最大、最负

PRO | 为什么基于 MoE 的大模型更值得关注? PRO | 为什么基于 MoE 的大模型更值得关注? Aug 07, 2024 pm 07:08 PM

2023年,几乎AI的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer作为AI大模型主流架构的局面是否会撼动?为何探索基于MoE(专家混合)架构的大模型成为业内新趋势?大型视觉模型(LVM)能否成为通用视觉的新突破?...我们从过去的半年发布的2023年本站PRO会员通讯中,挑选了10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。本篇解读来自2023年Week50

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 Jul 25, 2024 am 06:42 AM

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

Nature观点,人工智能在医学中的测试一片混乱,应该怎么做? Nature观点,人工智能在医学中的测试一片混乱,应该怎么做? Aug 22, 2024 pm 04:37 PM

编辑|ScienceAI基于有限的临床数据,数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具,以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停,这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据,与同事们建立了一系列AI模型,用于提供潜在诊断和推荐测试。一项研究表明,这些模型可以加快22.3%的就诊速度,将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而,人工智能算法在研究中的成功只是验证此

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊 准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊 Aug 06, 2024 pm 07:34 PM

编辑|KX逆合成是药物发现和有机合成中的一项关键任务,AI越来越多地用于加快这一过程。现有AI方法性能不尽人意,多样性有限。在实践中,化学反应通常会引起局部分子变化,反应物和产物之间存在很大重叠。受此启发,浙江大学侯廷军团队提出将单步逆合成预测重新定义为分子串编辑任务,迭代细化目标分子串以生成前体化合物。并提出了基于编辑的逆合成模型EditRetro,该模型可以实现高质量和多样化的预测。大量实验表明,模型在标准基准数据集USPTO-50 K上取得了出色的性能,top-1准确率达到60.8%。

See all articles