AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?
AI生成模型在过去这段时间里取了巨大的进展,就图像领域来说,用户可以通过输入自然语言提示来生成图像(如DALL-E 2,Stable Diffusion),也可以在时间维度上扩展生成连续的视频(如Phenaki),或者在空间维度上扩展直接生成3D模型(如Dreamfusion)。
但到目前为止,这些任务仍然处于孤立的研究状态,彼此之间不存在技术交集。
最近Meta AI的研究人员结合了视频和三维生成模型的优势,提出了一个全新的文本到四维(三维+时间)生成系统MAV3D(MakeA-Video3D),将自然语言描述作为输入,并输出一个动态的三维场景表示,可以从任意的视角进行渲染。
论文链接:https://arxiv.org/abs/2301.11280
项目链接:https://make-a-video3d.github.io/
MAV3D也是第一个可以根据给定文本描述来生成三维动态场景的模型。
文中提出的方法使用了一个4D 动态神经辐射场(NeRF) ,通过查询基于文本到视频(T2V)扩散的模型来优化场景表现、密度和运动一致性,由提供的文本生成的动态视频输出可以从任何摄像机的位置和角度观看,并且可以合成到任意的3D环境中。
该方法可用于为视频游戏、视觉效果或增强型和虚拟现实生成3D资产。
与图像生成和视频生成任务不同的是,互联网上有大量的caption数据可供训练,但却连一个现成的4D模型集合都没有。
柯基玩球
MAV3D的训练不需要任何3D或4D数据,T2V 模型只需要在文本-图像对和未标记的视频上进行训练。
在实验部分,研究人员进行了全面的定量和定性实验以证明该方法的有效性,对之前建立的内部基线有明显提升。
文本到4D动态场景
由于缺乏训练数据,研究人员为了解决这个任务构想了几种思路。
一种方法可能是找到一个预先训练好的二维视频生成器,并从生成的视频中提炼出一个四维重建。不过从视频中重建可变形物体的形状仍然是一个非常具有挑战性的问题,即非刚性运动结构(Non-Rigid Structure from Motion, NRSfM)。
如果给定物体的多个同步视点(multiple simultaneous viewpoints),任务就变得简单了。虽然多机位设置在真实数据中很少见,但研究人员认为,现有的视频生成器隐含了生成场景的任意视点模型。
也就是说,可以将视频生成器作为一个「统计学」的多摄像机设置来重建可变形物体的几何和光度。
MAV3D算法通过优化动态神经辐射场(NeRF)与将输入文本解码成视频,对物体周围的随机视点进行采样来实现该目的。
直接使用视频生成器来优化动态NeRF并没有取得令人满意的结果,实现过程中还有几个难题需要攻克:
1. 需要一个有效的、端到端可学习的动态三维场景表征;
2. 需要一个有监督学习的数据源,因为目前并不存在大规模的(文本,4D)对的数据集可供学习;
3. 需要在空间和时间维度上扩展输出的分辨率,因为4D输出需要大量的内存和计算能力;
MAV3D模型
MAV3D模型基于神经辐射场(NeRFs)的最新工作,结合了高效(静态)NeRFs和动态NeRFs中的成果,并将4D场景表示为六个多分辨率特征平面的集合。
为了在没有相应(文本、4D)数据的情况下监督这种表示,研究人员提出了一个用于动态场景渲染的多阶段训练pipeline,并证明了每个组件在实现高质量结果中的重要性。
一个比较关键的观察结果是,使用Text-to-Video(T2V)模型,利用Score Distillation Sampling(SDS)直接优化动态场景会导致视觉伪影和次优收敛。
所以研究人员选择首先利用文本到图像(T2I)模型,将静态的三维场景与文本提示相匹配,随后再用动态的方式增强三维场景模型。
此外,模型中还引入了一个新的temporal-aware SDS损失和运动正则项,通过实验证明了其对现实中和具有挑战性的运动至关重要。
并且通过一个额外的temporal-aware超分辨率微调阶段扩展到更高分辨率的输出。
最后使用T2V模型的超级分辨率模块的SDS来获得高分辨率的梯度信息来进行有监督学习三维场景模型,增加其视觉保真度,能够在推理过程中对更高分辨率的输出进行采样。
实验部分
评价指标
使用CLIP R-Precision来评估生成的视频,可以用于衡量文本和生成场景之间的一致性,可以反应输入提示从渲染的框架中的检索准确性。研究人员使用CLIP的ViT-B/32变体,并在不同的视图和时间步中提取帧。
除此之外还使用了四个定性指标,通过询问人类标注员在两个生成的视频中的偏好,可以得出(i)视频质量;(ii)对文本提示的忠实度;(iii)运动量;以及(iv)运动的真实性。
Text-to-4D对比
由于之前没有文字转4D的方法,所以研究人员建立了三个基于T2V生成方法的基线用于对比,二维帧的序列就会用三种不同的方法转化为三维场景表示的序列。
第一个序列是通过one-shot神经场景渲染器(Point-E)得到;第二个是通过对每一帧独立应用pixelNeRF生成的;第三个是应用D-NeRF结合使用COLMAP提取的相机位置。
可以看出,该方法在客观的R-精度指标上超过了基线模型,并且在所有指标上都得到了人类标注员更高的评价。
此外,研究人员还探索了该方法在不同相机视角下的表现。
消融实验
1、 在没有场景超分辨率(SR)微调的情况下训练的模型,其步骤数与MAV3D相同(阶段3)的情况下,人类标注员在质量、文本对齐和运动方面都更倾向于选择用SR训练的模型。
此外,超分辨率微调增强了渲染视频的质量,使高分辨率视频具有更精细的细节和更少的噪音。
2、无预训练:在直接优化动态场景(没有静态场景预训练)的步骤与MAV3D相同的情况下,结果是场景质量低得多或收敛性差:在73%和65%的情况下,用静态预训练的模型在视频质量和现实运动方面更受欢迎。
以上是AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

CentOS 关机命令为 shutdown,语法为 shutdown [选项] 时间 [信息]。选项包括:-h 立即停止系统;-P 关机后关电源;-r 重新启动;-t 等待时间。时间可指定为立即 (now)、分钟数 ( minutes) 或特定时间 (hh:mm)。可添加信息在系统消息中显示。

检查CentOS系统中HDFS配置的完整指南本文将指导您如何有效地检查CentOS系统上HDFS的配置和运行状态。以下步骤将帮助您全面了解HDFS的设置和运行情况。验证Hadoop环境变量:首先,确认Hadoop环境变量已正确设置。在终端执行以下命令,验证Hadoop是否已正确安装并配置:hadoopversion检查HDFS配置文件:HDFS的核心配置文件位于/etc/hadoop/conf/目录下,其中core-site.xml和hdfs-site.xml至关重要。使用

CentOS系统下GitLab的备份与恢复策略为了保障数据安全和可恢复性,CentOS上的GitLab提供了多种备份方法。本文将详细介绍几种常见的备份方法、配置参数以及恢复流程,帮助您建立完善的GitLab备份与恢复策略。一、手动备份利用gitlab-rakegitlab:backup:create命令即可执行手动备份。此命令会备份GitLab仓库、数据库、用户、用户组、密钥和权限等关键信息。默认备份文件存储于/var/opt/gitlab/backups目录,您可通过修改/etc/gitlab

在 CentOS 上安装 MySQL 涉及以下步骤:添加合适的 MySQL yum 源。执行 yum install mysql-server 命令以安装 MySQL 服务器。使用 mysql_secure_installation 命令进行安全设置,例如设置 root 用户密码。根据需要自定义 MySQL 配置文件。调整 MySQL 参数和优化数据库以提升性能。

在CentOS系统上启用PyTorchGPU加速,需要安装CUDA、cuDNN以及PyTorch的GPU版本。以下步骤将引导您完成这一过程:CUDA和cuDNN安装确定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA显卡支持的CUDA版本。例如,您的MX450显卡可能支持CUDA11.1或更高版本。下载并安装CUDAToolkit:访问NVIDIACUDAToolkit官网,根据您显卡支持的最高CUDA版本下载并安装相应的版本。安装cuDNN库:前

Docker利用Linux内核特性,提供高效、隔离的应用运行环境。其工作原理如下:1. 镜像作为只读模板,包含运行应用所需的一切;2. 联合文件系统(UnionFS)层叠多个文件系统,只存储差异部分,节省空间并加快速度;3. 守护进程管理镜像和容器,客户端用于交互;4. Namespaces和cgroups实现容器隔离和资源限制;5. 多种网络模式支持容器互联。理解这些核心概念,才能更好地利用Docker。

在CentOS系统上安装和配置GitLab时,数据库的选择至关重要。GitLab兼容多种数据库,但PostgreSQL和MySQL(或MariaDB)最为常用。本文将分析数据库选择因素,并提供详细的安装和配置步骤。数据库选择指南选择数据库需要考虑以下因素:PostgreSQL:GitLab的默认数据库,功能强大,可扩展性高,支持复杂查询和事务处理,适合大型应用场景。MySQL/MariaDB:广泛应用于Web应用的流行关系型数据库,性能稳定可靠。MongoDB:NoSQL数据库,擅长处

CentOS系统下查看GitLab日志的完整指南本文将指导您如何查看CentOS系统中GitLab的各种日志,包括主要日志、异常日志以及其他相关日志。请注意,日志文件路径可能因GitLab版本和安装方式而异,若以下路径不存在,请检查GitLab安装目录及配置文件。一、查看GitLab主要日志使用以下命令查看GitLabRails应用程序的主要日志文件:命令:sudocat/var/log/gitlab/gitlab-rails/production.log此命令会显示produc
