目录
论文概览
方法介绍
实验及结果
首页 科技周边 人工智能 4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

Oct 19, 2023 pm 02:21 PM
ai 模型

当 4K 画质、60 帧视频在某些 APP 上还只能开会员观看时,AI 研究者已经把 3D 动态合成视频做到了 4K 级别,而且画面相当流畅。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

在现实生活中,我们接触的大多数视频都是 2D 的。在观看这种视频时,我们是没有办法选择观看视角的,比如走到演员中间,或者走到空间的某个角落。VR、AR 设备的出现弥补了这一缺陷,它们提供的 3D 视频允许我们变换视角、甚至随意走动,沉浸感大大提升。

但是,这种 3D 动态场景的合成一直是个难点,无论是在画质上还是流畅度上。

最近,来自浙江大学、像衍科技和蚂蚁集团的研究者对这个问题发起了挑战。在一篇题为「4K4D: Real-Time 4D View Synthesis at 4K Resolution」的论文中,他们提出了一种名为4K4D的点云表示方法,大大提升了高分辨率3D动态场景合成的渲染速度。具体来说,使用 RTX 4090 GPU,他们的方法能以 4K 分辨率进行渲染,帧率可达80 FPS;以1080p分辨率进行渲染时,帧率可达400FPS。总体来看,它的速度是以前方法的30多倍,而且渲染质量达到了SOTA。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

以下是论文简介。

论文概览

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍


  • 论文链接:https://arxiv.org/pdf/2310.11448.pdf
  • 项目链接:https://zju3dv.github.io/4k4d/

动态视图合成旨在从捕获的视频中重建动态 3D 场景,并创建沉浸式虚拟回放,这是计算机视觉和计算机图形学中长期研究的问题。这种技术实用性的关键在于它能够以高保真度实时渲染,使其能够应用于 VR/AR、体育广播和艺术表演捕捉。传统方法将动态 3D 场景表示为纹理网格序列,并使用复杂的硬件进行重建。因此,它们通常仅限于受控环境。

最近,隐式神经表示在通过可微渲染从 RGB 视频重建动态 3D 场景方面取得了巨大成功。例如《Neural 3d video synthesis from multi-view video》将目标场景建模为动态辐射场,利用体渲染合成图像,并与输入图像进行对比优化。尽管动态视图合成结果令人印象深刻,但由于网络评估昂贵,现有方法通常需要几秒钟甚至几分钟才能以 1080p 分辨率渲染一张图像。

受静态视图合成方法的启发,一些动态视图合成方法通过降低网络评估的成本或次数来提高渲染速度。通过这些策略,MLP Maps 能够以 41.7 fps 的速度渲染前景动态人物。然而,渲染速度的挑战仍然存在,因为 MLP  Maps 的实时性能只有在合成中等分辨率(384×512)的图像时才能实现。当渲染 4K 分辨率的图像时,它的速度降低到只有 1.3 FPS。

在这篇论文中,研究者提出了一种新的神经表示 ——4K4D,用于建模和渲染动态 3D 场景。如图 1 所示,4K4D 在渲染速度上明显优于以前的动态视图合成方法,同时在渲染质量上具有竞争力。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

作者表示,他们的核心创新在于 4D 点云表示和混合外观模型。具体而言,对于动态场景,他们使用空间雕刻算法获得粗点云序列,并将每个点的位置建模为可学习向量。他们还引入 4D 特征网格,为每个点分配特征向量,并将其输入 MLP 网络,以预测点的半径、密度和球谐函数(SH)系数。4D 特征网格自然地在点云上应用了空间正则化,使得优化更加稳健。基于 4K4D,研究者开发了一种可微深度剥离算法,利用硬件光栅化实现前所未有的渲染速度。

研究者发现,基于 MLP 的 SH 模型难以表示动态场景的外观。为了缓解这个问题,他们还引入了一个图像混合模型来与 SH 模型结合,以表示场景的外观。一个重要的设计是,他们使图像混合网络独立于观看方向,因此可以在训练后预先计算,以提高渲染速度。作为一把双刃剑,该策略使图像混合模型沿观看方向离散。使用连续 SH 模型可以弥补这个问题。与仅使用 SH 模型的 3D Gaussian Splatting 相比,研究者提出的混合外观模型充分利用了输入图像捕获的信息,从而有效地提高了渲染质量。

为了验证新方法的有效性,研究者在多个广泛使用的多视图动态新视图合成数据集上评估了 4K4D,包括 NHR、ENeRF-Outdoo、DNA-Rendering 和 Neural3DV。广泛的实验表明,4K4D 不仅渲染速度快了几个数量级,而且在渲染质量方面也明显优于 SOTA 技术。使用 RTX 4090 GPU,新方法在 DNA-Rendering 数据集上达到 400 FPS,分辨率为 1080p;在 ENeRF-Outdoor 数据集上达到 80 FPS,分辨率为 4k。

方法介绍

给定捕获动态 3D 场景的多视图视频,本文旨在重建目标场景并实时地进行视图合成。模型架构图如图 2 所示:

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

接着文中介绍了用点云建模动态场景的相关知识,他们从 4D 嵌入、几何模型以及外观模型等角度展开。

4D 嵌入:给定目标场景的粗点云,本文使用神经网络和特征网格表示其动态几何和外观。具体来说,本文首先定义了六个特征平面 θ_xy、θ_xz、θ_yz、θ_tx、θ_ty 和 θ_tz,并采用 K-Planes 策略,利用这六个平面来建模一个 4D 特征场 Θ(x, t):

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

几何模型:基于粗点云,动态场景几何结构通过学习每个点上的三个属性(entries)来表示,即位置 p ∈ R^3 、半径 r ∈ R 和密度 σ ∈ R。然后借助这些点,计算空间点 x 的体积密度。点位置 p 被建模为一个可优化的向量。通过将 Eq.(1) 中的特征向量 f 馈送到 MLP 网络中来预测半径 r 和密度 σ。

外观模型:如图 2c 所示,本文使用图像混合技术和球谐函数(SH)模型来构建混合外观模型,其中图像混合技术表示离散视图外观 c_ibr,SH 模型表示连续的依赖于视图的外观 c_sh。对于第 t 帧处的点 x,其在视图方向 d 上的颜色为:

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

可微深度剥离

本文提出的动态场景表示借助深度剥离算法可以渲染成图像。

研究者开发了一个自定义着色器来实现由 K 个渲染通道组成的深度剥离算法。即对于一个特定的像素 u,研究者进行了多步处理,最后,经过 K 次渲染后,像素 u 得到一组排序点 {x_k|k = 1, ..., K}。

基于这些点 {x_k|k = 1, ..., K},得到体渲染中像素 u 的颜色表示为:

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

在训练过程中,给定渲染的像素颜色 C (u),本文将其与真实像素颜色 C_gt (u) 进行比较,并使用以下损失函数以端到端的方式优化模型:

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

除此以外,本文还应用了感知损失:

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

以及掩码损失:

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

最终的损失函数定义为:

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

实验及结果

本文在 DNA-Rendering、ENeRF-Outdoor、 NHR 以及 Neural3DV 数据集上评估了 4K4D 方法。

在 DNA-Rendering 数据集上的结果如表 1 所示,结果显示,4K4D 渲染速度比具有 SOTA 性能的 ENeRF 快 30 多倍,并且渲染质量还更好。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

在 DNA-Rendering 数据集上的定性结果如图 5 所示,KPlanes 无法对 4D 动态场景下的详细外观和几何形状进行恢复,而其他基于图像的方法产生了高质量的外观。然而,这些方法往往会在遮挡和边缘周围产生模糊的结果,导致视觉质量下降,相反,4K4D 可以在超过 200 FPS 的情况下产生更高保真度的渲染。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

接下来,实验展示了不同方法在 ENeRFOutdoor 数据集上的定性和定量结果。如表 2 所示,4K4D 在以超过 140 FPS 的速度进行渲染时仍然取得了明显更好的结果。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

而其他方法,如 ENeRF 产生了模糊的结果;IBRNet 的渲染结果包含图像边缘周围的黑色伪影,如图 3 所示;K-Planse 无法重建动态人体以及不同的背景区域。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

表 6 展示了可微深度剥离算法的有效性,4K4D 比基于 CUDA 的方法快 7 倍以上。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

本文还在表 7 中报告了 4K4D 在不同分辨率的不同硬件(RTX 3060、3090 和 4090)上的渲染速度。

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

更多细节请参见原论文。

以上是4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Laravel的地理空间:互动图和大量数据的优化 Laravel的地理空间:互动图和大量数据的优化 Apr 08, 2025 pm 12:24 PM

利用地理空间技术高效处理700万条记录并创建交互式地图本文探讨如何使用Laravel和MySQL高效处理超过700万条记录,并将其转换为可交互的地图可视化。初始挑战项目需求:利用MySQL数据库中700万条记录,提取有价值的见解。许多人首先考虑编程语言,却忽略了数据库本身:它能否满足需求?是否需要数据迁移或结构调整?MySQL能否承受如此大的数据负载?初步分析:需要确定关键过滤器和属性。经过分析,发现仅少数属性与解决方案相关。我们验证了过滤器的可行性,并设置了一些限制来优化搜索。地图搜索基于城

mysql 无法启动怎么解决 mysql 无法启动怎么解决 Apr 08, 2025 pm 02:21 PM

MySQL启动失败的原因有多种,可以通过检查错误日志进行诊断。常见原因包括端口冲突(检查端口占用情况并修改配置)、权限问题(检查服务运行用户权限)、配置文件错误(检查参数设置)、数据目录损坏(恢复数据或重建表空间)、InnoDB表空间问题(检查ibdata1文件)、插件加载失败(检查错误日志)。解决问题时应根据错误日志进行分析,找到问题的根源,并养成定期备份数据的习惯,以预防和解决问题。

mysql安装后怎么使用 mysql安装后怎么使用 Apr 08, 2025 am 11:48 AM

文章介绍了MySQL数据库的上手操作。首先,需安装MySQL客户端,如MySQLWorkbench或命令行客户端。1.使用mysql-uroot-p命令连接服务器,并使用root账户密码登录;2.使用CREATEDATABASE创建数据库,USE选择数据库;3.使用CREATETABLE创建表,定义字段及数据类型;4.使用INSERTINTO插入数据,SELECT查询数据,UPDATE更新数据,DELETE删除数据。熟练掌握这些步骤,并学习处理常见问题和优化数据库性能,才能高效使用MySQL。

mysql 能返回 json 吗 mysql 能返回 json 吗 Apr 08, 2025 pm 03:09 PM

MySQL 可返回 JSON 数据。JSON_EXTRACT 函数可提取字段值。对于复杂查询,可考虑使用 WHERE 子句过滤 JSON 数据,但需注意其性能影响。MySQL 对 JSON 的支持在不断增强,建议关注最新版本及功能。

mySQL下载完安装不了 mySQL下载完安装不了 Apr 08, 2025 am 11:24 AM

MySQL安装失败的原因主要有:1.权限问题,需以管理员身份运行或使用sudo命令;2.依赖项缺失,需安装相关开发包;3.端口冲突,需关闭占用3306端口的程序或修改配置文件;4.安装包损坏,需重新下载并验证完整性;5.环境变量配置错误,需根据操作系统正确配置环境变量。解决这些问题,仔细检查每个步骤,就能顺利安装MySQL。

偏远的高级后端工程师(平台)需要圈子 偏远的高级后端工程师(平台)需要圈子 Apr 08, 2025 pm 12:27 PM

远程高级后端工程师职位空缺公司:Circle地点:远程办公职位类型:全职薪资:$130,000-$140,000美元职位描述参与Circle移动应用和公共API相关功能的研究和开发,涵盖整个软件开发生命周期。主要职责独立完成基于RubyonRails的开发工作,并与React/Redux/Relay前端团队协作。为Web应用构建核心功能和改进,并在整个功能设计过程中与设计师和领导层紧密合作。推动积极的开发流程,并确定迭代速度的优先级。要求6年以上复杂Web应用后端

了解 ACID 属性:可靠数据库的支柱 了解 ACID 属性:可靠数据库的支柱 Apr 08, 2025 pm 06:33 PM

数据库ACID属性详解ACID属性是确保数据库事务可靠性和一致性的一组规则。它们规定了数据库系统处理事务的方式,即使在系统崩溃、电源中断或多用户并发访问的情况下,也能保证数据的完整性和准确性。ACID属性概述原子性(Atomicity):事务被视为一个不可分割的单元。任何部分失败,整个事务回滚,数据库不保留任何更改。例如,银行转账,如果从一个账户扣款但未向另一个账户加款,则整个操作撤销。begintransaction;updateaccountssetbalance=balance-100wh

Bangla 部分模型检索中的 Laravel Eloquent ORM) Bangla 部分模型检索中的 Laravel Eloquent ORM) Apr 08, 2025 pm 02:06 PM

LaravelEloquent模型检索:轻松获取数据库数据EloquentORM提供了简洁易懂的方式来操作数据库。本文将详细介绍各种Eloquent模型检索技巧,助您高效地从数据库中获取数据。1.获取所有记录使用all()方法可以获取数据库表中的所有记录:useApp\Models\Post;$posts=Post::all();这将返回一个集合(Collection)。您可以使用foreach循环或其他集合方法访问数据:foreach($postsas$post){echo$post->

See all articles