目录
基于关键帧的动态体积" >基于关键帧的动态体积
静态场景的比较" >静态场景的比较
动态场景的比较" >动态场景的比较
首页 科技周边 人工智能 Meta、CMU联手推出VR史诗级升级!最新HyperReel模型实现高保真6自由度视频渲染

Meta、CMU联手推出VR史诗级升级!最新HyperReel模型实现高保真6自由度视频渲染

Apr 11, 2023 pm 01:10 PM
ai

最近,由Meta和卡内基梅隆大学提出的6-DoF视频表征模型——HyperReel,可能预示着一个全新的VR「杀手级」应用即将诞生!

所谓「六自由度视频」(6-DoF),简单来说就是一个超高清的4D体验式回放。

其中,用户可以完全「置身于」动态场景里面,并且可以自由地移动。而当他们任意改变自己的头部位置(3 DoF)和方向(3 DoF)时,与之相应的视图也会随之生成。

图片

论文地址:https://arxiv.org/abs/2301.02238

与之前的工作相比,HyperReel最大的优势在于内存和计算效率,而这两点对于便携式VR头显来说都至关重要。

而且只需采用vanilla PyTorch,HyperReel就能在单张英伟达RTX 3090上,以每秒18帧的速度实现百万像素分辨率的渲染。

图片

太长不看版:

1. 提出一种可在高分辨率下实现高保真度、高帧率的渲染的光线条件采样预测网络,以及一种紧凑且内存高效的动态体积表征;

2. 6-DoF视频表征方法HyperReel结合了以上两个核心部分,可以在实时渲染百万像素分辨率的同时,实现速度、质量和内存之间的理想平衡;

3. HyperReel在内存需求、渲染速度等多个方面均优于其他方法。

论文介绍

体积场景表征(volumetric scene representation)能够为静态场景提供逼真的视图合成,并构成了现有6-DoF视频技术的基础。

然而,驱动这些表征的体积渲染程序,需要在质量、渲染速度和内存效率方面,进行仔细的权衡。

现有的方法有一个弊端——不能同时实现实时性能、小内存占用和高质量渲染,而在极具挑战性的真实场景中,这些都是极为重要的。

为了解决这些问题,研究人员提出了HyperReel——一种基于NeRF技术(神经辐射场)的6-DoF视频表征方法。

其中,HyperReel的两个核心部分是:

1. 一个光线条件下的采样预测网络,能够在高分辨率下进行高保真、高帧率的渲染;

2. 一个紧凑且内存高效的动态体积表征。

与其他方法相比,HyperReel的6-DoF视频管线不仅在视觉质量上表现极佳,而且内存需求也很小。

同时,HyperReel无需任何定制的CUDA代码,就能在百万像素分辨率下实现18帧/秒的渲染速度。

图片

具体来说,HypeReel通过结合样本预测网络和基于关键帧的体积表征法,从而实现了高渲染质量、速度和内存效率之间的平衡。

其中的样本预测网络,既能加速体积渲染,又能提高渲染质量,特别是对于具有挑战性的视图依赖性的场景。

而在基于关键帧的体积表征方面,研究人员采用的是TensoRF的扩展。

这种方法可以在内存消耗与单个静态帧TensoRF大致相同的同时,凑地表征了一个完整的视频序列。

图片

实时演示

接下来,我们就实时演示一下,HypeReel在512x512像素分辨率下动态和静态场景的渲染效果。

值得注意的是,研究人员在Technicolor和Shiny场景中使用了更小的模型,因此渲染的帧率大于40 FPS。对于其余的数据集则使用完整模型,不过HypeReel仍然能够提供实时推理。

图片Technicolor

图片Shiny

图片Stanford

图片Immersive

DoNeRF

实现方法

为了实现HeperReel,首先要考虑的问题,就是要优化静态视图合成的体积表征。

像NeRF这样的体积表征,就是对静态场景在3D空间中的每一个点的密度和外观,进行建模。

更具体地说,通过函数图片将位置x和方向图片沿着⼀条射线映射到颜色图片和密度σ(x)。

此处的可训练参数θ,可以是神经网络权重、N维数组条目,或两者的组合。​

然后就可以渲染静态场景的新视图

图片

其中图片表征从o到图片的透射率。​

在实践中,可以通过沿给定射线获取多个样本点,然后使用数值求积来计算方程式1:

图片

其中权重图片指定了每个样本点的颜色对输出的贡献。​

体积渲染的网格示例

在静态场景的HyperReel中,给定一组图像和相机姿势,而训练目标就是重建与每条光线相关的测量颜色。

大多数场景是由实体物体组成的,这些物体的表面位于3D场景体积内的一个2D流形上。在这种情况下,只有一小部分样本点会影响每条光线的渲染颜色。

因此,为了加速体积渲染,研究人员希望只对非零图片的点,查询颜色和不透明度。

如下图所示,研究人员使用前馈网络来预测一组样本位置图片。具体来说,就是使用样本预测网络图片将射线图片映射到样本点图片,以获取体积等式2中的渲染。

​这里,研究人员使用Plucker的参数化来表征光线。​​

图片

但是这其中有一个问题:给网络太多的灵活性,可能会对视图合成质量产生负面影响。例如,如果(x1, . . . , xn) 是完全任意的点,那么渲染可能看起来不是多视图⼀致的。

为了解决这个问题,研究人员选择用样本预测网络来预测一组几何基元G1, ..., Gn的参数,其中基元的参数可以根据输入射线的不同而变化。为了得到样本点,将射线与每个基元相交。

图片

如图a所示,给定源自相机原点o并沿方向ω传播的输入光线后, 研究人员首先使用Plucker坐标,重新对光线进行参数化。

图片

如图b所示,一个网络将此射线作为输入,输出一组几何基元{}(如轴对齐的平面和球体)和位移矢量{}的参数。​​

图片

如图c所示,为了生成用于体积渲染的样本点{图片},研究人员计算了射线和几何基元之间的交点,并将位移矢量添加到结果中。预测几何基元的好处是使采样信号平滑,易于插值。

位移矢量为采样点提供了额外的灵活性,能够更好地捕捉到复杂的视线依赖的外观。​

图片

如图d所示,最终,研究人员通过公式2进行体积渲染,产生一个像素颜色,并根据相应的观察结果,对它进行了监督训练。

基于关键帧的动态体积

通过上述办法,就可以有效地对3D场景体积进行采样。

如何表征体积呢?在静态情况下,研究人员使用的是内存有效的张量辐射场(TensoRF)方法;在动态情况下,就将TensoRF扩展到基于关键帧的动态体积表征。

下图解释了从基于关键帧的表征中,提取动态的样本点表征的过程。

图片

如图1所示,首先,研究人员使用从样本预测网络输出的速度{},将时间处的样本点{}平移到最近的关键帧中。

图片

然后,如图2所示,研究人员查询了时空纹理的外积,产生了每个样本点的外观特征,然后通过公式10将其转换成颜色。

通过这样的过程,研究人员提取了每个样本的的不透明度。​

图片

结果对比

静态场景的比较

在此,研究人员将HyperReel与现有的静态视图合成方法(包括NeRF、InstantNGP和三种基于采样网络的方法)进行了比较。

  • DoNeRF数据集

DoNeRF数据集包含六个合成序列,图像分辨率为800×800像素。

如表1所示,HyperReel的方法在质量上优于所有基线,并在很大程度上提高了其他采样网络方案的性能。

同时,HyperReel是用vanilla PyTorch实现的,可在单张RTX 3090 GPU上以6.5 FPS的速度渲染800×800像素的图像(或者用Tiny模型实现29 FPS的渲染)。

此外,与R2L的88层、256个隐藏单元的深度MLP相比,研究人员提出的6层、256个隐藏单元的网络外加TensoRF体积骨干的推理速度更快

图片

  • LLFF数据集

LLFF数据集包含8个具有1008×756像素图像的真实世界序列。

如表1所示,HyperReel的方法优于DoNeRF、AdaNeRF、TermiNeRF和InstantNGP,但取得的质量比NeRF略差。

由于错误的相机校准和输入视角的稀疏性,这个数据集对显式体积表征来说是一个巨大的挑战。

图片

动态场景的比较

  • Technicolor数据集

Technicolor光场数据集包含了由时间同步的4×4摄像机装置拍摄的各种室内环境的视频,其中每个视频流中的每张图片都是2048×1088像素。

研究人员将HyperReel和Neural 3D Video在全图像分辨率下对这个数据集的五个序列(Birthday, Fabien, Painter, Theater, Trains)进行比较,每个序列有50帧长。

如表2所示,HyperReel的质量超过了Neural 3D Video,同时每个序列的训练时间仅为1.5个小时(而不是Neural 3D的1000多个小时),并且渲染速度更快。

  • Neural 3D Video数据集

Neural 3D Video数据集包含6个室内多视图视频序列,由20台摄像机以2704×2028像素的分辨率拍摄。

如表2所示,HyperReel在这个数据集上的表现超过了所有的基线方法,包括NeRFPlayer和StreamRF等最新工作。

特别是,HyperReel在数量上超过了NeRFPlayer,渲染速度是其40倍左右;在质量上超过了StreamRF,尽管其采用Plenoxels为骨干的方法(使用定制的CUDA内核来加快推理速度)渲染速度更快。

此外,HyperReel平均每帧消耗的内存比StreamRF和NeRFPlayer都要少得多。

  • 谷歌Immersive数据集

谷歌Immersive数据集包含了各种室内和室外环境的光场视频。

如表2所示,HyperReel在质量上比NeRFPlayer的要好1 dB,同时渲染速度也更快。

图片

有些遗憾的是,HyperReel目前还没有达到VR所要求的渲染速度(理想情况下为72FPS,立体声)。

不过,由于该方法是在vanilla PyTorch中实现的,因此可以通过比如自定义的CUDA内核等工作,来进一步优化性能。

图片

作者介绍

论文一作Benjamin Attal,目前在卡内基梅隆机器人研究所攻读博士学位。研究兴趣包括虚拟现实,以及计算成像和显示。

图片

以上是Meta、CMU联手推出VR史诗级升级!最新HyperReel模型实现高保真6自由度视频渲染的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

web3交易平台排行榜_web3全球交易所前十名汇总 web3交易平台排行榜_web3全球交易所前十名汇总 Apr 21, 2025 am 10:45 AM

币安是全球数字资产交易生态的霸主,其特点包括:1. 日均交易量突破$1500亿,支持500 交易对,覆盖98%主流币种;2. 创新矩阵涵盖衍生品市场、Web3布局和教育体系;3. 技术优势为毫秒级撮合引擎,峰值处理量达140万笔/秒;4. 合规进展持有15国牌照,并在欧美设立合规实体。

WorldCoin(WLD)价格预测2025-2031:到2031年WLD会达到4美元吗? WorldCoin(WLD)价格预测2025-2031:到2031年WLD会达到4美元吗? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。 WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。 2025年WLD价格预测预计2025年WLD将实现显着增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

币圈杠杆交易所排名 币圈十大杠杆交易所APP最新推荐 币圈杠杆交易所排名 币圈十大杠杆交易所APP最新推荐 Apr 21, 2025 pm 11:24 PM

2025年在杠杆交易、安全性和用户体验方面表现突出的平台有:1. OKX,适合高频交易者,提供最高100倍杠杆;2. Binance,适用于全球多币种交易者,提供125倍高杠杆;3. Gate.io,适合衍生品专业玩家,提供100倍杠杆;4. Bitget,适用于新手及社交化交易者,提供最高100倍杠杆;5. Kraken,适合稳健型投资者,提供5倍杠杆;6. Bybit,适用于山寨币探索者,提供20倍杠杆;7. KuCoin,适合低成本交易者,提供10倍杠杆;8. Bitfinex,适合资深玩

跨链交易什么意思?跨链交易所有哪些? 跨链交易什么意思?跨链交易所有哪些? Apr 21, 2025 pm 11:39 PM

支持跨链交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,这些平台通过各种技术支持多链资产交易。

对于加密货币行业来说,'黑色星期一抛售”是艰难的一天 对于加密货币行业来说,'黑色星期一抛售”是艰难的一天 Apr 21, 2025 pm 02:48 PM

加密货币市场暴跌引发投资者恐慌,Dogecoin(Doge)成为重灾区之一。其价格大幅下挫,去中心化金融(DeFi)总价值锁定(TVL)也出现显着下降。 “黑色星期一”的抛售潮席卷加密货币市场,Dogecoin首当其冲。其DeFiTVL跌至2023年水平,币价在过去一个月内下跌23.78%。 Dogecoin的DeFiTVL降至272万美元的低点,主要原因是SOSO价值指数下跌26.37%。其他主要DeFi平台,如无聊的Dao和Thorchain,TVL也分别下降了24.04%和20.

虚拟币价格上涨或者下降是为什么 虚拟币价格上涨或者下降的原因 虚拟币价格上涨或者下降是为什么 虚拟币价格上涨或者下降的原因 Apr 21, 2025 am 08:57 AM

虚拟币价格上涨因素包括:1.市场需求增加,2.供应量减少,3.利好消息刺激,4.市场情绪乐观,5.宏观经济环境;下降因素包括:1.市场需求减少,2.供应量增加,3.利空消息打击,4.市场情绪悲观,5.宏观经济环境。

如何在币安拿下 KERNEL 空投奖励 全流程攻略 如何在币安拿下 KERNEL 空投奖励 全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密货币的繁华世界里,新机遇总是不断涌现。当下,KernelDAO (KERNEL) 空投活动正备受瞩目,吸引着众多投资者的目光。那么,这个项目究竟是什么来头?BNB Holder 又能从中获得怎样的好处?别急,下面将为你一一揭晓。

Aavenomics是修改AAVE协议令牌并介绍令牌回购的建议,已达到法定人数 Aavenomics是修改AAVE协议令牌并介绍令牌回购的建议,已达到法定人数 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE协议令牌并引入令牌回购的提议,已为AAVEDAO实现了一个法定人数。AAVE连锁计划(ACI)创始人马克·泽勒(MarcZeller)在X上宣布了这一点,并指出它标志着该协议的新时代。AAVE连锁倡议(ACI)创始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE协议令牌和引入令牌回购,已为AAVEDAO实现了法定人数。根据Zeller的说法,这标志着该协议的新时代。AaveDao成员以压倒性的投票支持该提议,即在周三以每周100

See all articles