ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了
人体动作生成任务旨在生成逼真的人体动作序列,以满足娱乐、虚拟现实、机器人技术等领域的需求。传统的生成方法包括 3D 角色创建、关键帧动画和动作捕捉等步骤,其存在诸多限制,如耗时较长,需要专业技术知识,涉及昂贵的系统和软件,不同软硬件系统之间可能存在兼容性问题等。随着深度学习的发展,人们开始尝试使用生成模型来实现人体动作序列的自动生成,例如通过输入文本描述,要求模型生成与文本要求相匹配的动作序列。随着扩散模型被引入这个领域,生成动作与给定文本的一致性不断提高。
然而,尽管生成动作的自然程度已经有所提升,但与使用需求仍存在较大差距。为了进一步提升人体动作生成算法的能力,本文在MotionDiffuse [1]的基础上提出了ReMoDiffuse算法(图1)。通过利用检索策略,找到高相关性的参考样本,并提供细粒度的参考特征,从而生成更高质量的动作序列
论文链接:https://arxiv.org/pdf/2304.01116.pdf
GitHub链接:https://github.com/mingyuan-zhang/ReMoDiffuse
项目主页:https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html
通过巧妙地将扩散模型和创新的检索策略融合,ReMoDiffuse 为文本指导的人体动作生成注入了新的生命力。经过精心构思的模型结构,ReMoDiffuse 不仅能够创造出丰富多样、真实度高的动作序列,还能有效地满足各种长度和多粒度的动作需求。实验证明,ReMoDiffuse 在动作生成领域的多个关键指标上表现出色,显著地超越了现有算法。
图 1. ReMoDiffuse 概览
方法介绍
ReMoDiffuse的主要流程分为两个阶段:检索和扩散。在检索阶段,ReMoDiffuse利用混合检索技术,根据用户输入文本和预期的动作序列长度,从外部的多模态数据库中检索出信息丰富的样本,为动作生成提供有力的指导。在扩散阶段,ReMoDiffuse利用检索阶段获取的信息,通过高效的模型结构生成与用户输入语义一致的运动序列
为了确保高效的检索,ReMoDiffuse 为检索阶段精心设计了以下数据流(图 2):
共有三种数据参与检索过程,分别是用户输入文本、预期动作序列长度,以及一个外部的、包含多个 对的多模态数据库。在检索最相关的样本时,ReMoDiffuse 利用公式计算出每个数据库中的样本与用户输入的相似度。这里的第一项是利用预训练的 CLIP [2] 模型的文本编码器对用户输入文本和数据库实体的文本计算余弦相似度,第二项计算预期动作序列长度和数据库实体的动作序列长度之间的相对差异作为运动学相似度。计算相似度分数后,ReMoDiffuse 选择相似度排名前 k 的样本作为检索到的样本,并提取出文本特征
,和动作特征
。这两者和从用户输入的文本中提取的特征
一同作为输入给扩散阶段的信号,指导动作生成。
图 2:ReMoDiffuse 的检索阶段
扩散过程(图3.c)由正向过程和逆向过程两个部分组成。在正向过程中,ReMoDiffuse会逐步将高斯噪声添加到原始动作数据中,并最终将其转化为随机噪声。逆向过程则专注于去除噪声并生成逼真的动作样本。从一个随机高斯噪声开始,ReMoDiffuse在逆向过程的每一步都使用语义调制模块(SMT)(图3.a)来估测真实分布,并根据条件信号逐步去除噪声。这里的SMT中的SMA模块将会将所有的条件信息融入到生成的序列特征中,是本文提出的核心模块
图 3:ReMoDiffuse 的扩散阶段
对于 SMA 层(图 3.b),我们使用了高效的注意力机制(Efficient Attention)[3] 来加速注意力模块的计算,并创造了一个更强调全局信息的全局特征图。该特征图为动作序列提供了更综合的语义线索,从而提升了模型的性能。SMA 层的核心目标是通过聚合条件信息来优化动作序列的生成。在这个框架下:
1.Q 向量具体地代表了我们期望基于条件信息生成的预期动作序列。
2.K 向量作为一种索引机制综合考虑了多个要素,包括当前动作序列特征、用户输入的语义特征
,以及从检索样本中获取的特征
和
。其中,
表示从检索样本中获取的动作序列特征,
表示从检索样本中获取的文本描述特征。这种综合性的构建方式保证了 K 向量在索引过程中的有效性。
3.V 向量提供了生成动作所需的实际特征。与 K 向量类似,V 向量综合考虑了检索样本、用户输入和当前动作序列。由于检索样本的文本描述特征与生成的动作之间没有直接关联,因此在计算 V 向量时,我们选择不使用这一特征,以避免不必要的信息干扰
结合 Efficient Attention 的全局注意力模板机制,SMA 层利用来自检索样本的辅助信息、用户文本的语义信息以及待去噪序列的特征信息,建立起一系列综合性的全局模板,使得所有条件信息能够被待生成序列充分吸收。
为了实现内容的重写,需要将原文转换成中文。以下是重写后的内容: 研究设计和实验结果
我们对ReMoDiffuse进行了HumanML3D [4]和KIT-ML [5]两个数据集的评估。实验结果(表1、2)从文本一致性和动作质量两个角度展示了我们提出的ReMoDiffuse框架的强大性能和优势
表 1. 不同方法在 HumanML3D 测试集上的表现
表 2. 不同方法在 KIT-ML 测试集上的表现
以下是展示 ReMoDiffuse 强大性能的一些示例(图 4)。与之前的方法相比,例如,在给定文本“一个人在圆圈里跳跃”时,只有 ReMoDiffuse 能够准确捕捉到“跳跃”动作和“圆圈”路径。这表明 ReMoDiffuse 能够有效地捕捉文本细节,并将内容与给定的运动持续时间对齐
图 4. ReMoDiffuse 生成的动作序列与其他方法生成的动作序列的比较
我们对 Guo 等人的方法 [4]、MotionDiffuse [1]、MDM [6] 以及 ReMoDiffuse 所生成的相应动作序列进行了可视化展示,并以问卷形式收集测试参与者的意见。结果的分布情况如图 5 所示。从结果中可以清晰地看出,在大多数情况下,参与测试者认为我们的方法 —— 即 ReMoDiffuse 所生成的动作序列在四个算法中最贴合所给的文本描述,也最自然流畅。
图 5:用户调研的结果分布
引用
明源张、蔡忠刚、潘亮、洪方舟、郭欣颖、杨磊和刘子伟。Motiondiffuse: 基于扩散模型的文本驱动人体动作生成。arXiv预印本 arXiv:2208.15001, 2022年
[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.
[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 3531–3539, 2021.
[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5152–5161, 2022.
需要重写的内容是:[5] Matthias Plappert, Christian Mandery和Tamim Asfour。《运动语言数据集》。大数据,4(4):236-252,2016年
[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. In The Eleventh International Conference on Learning Representations, 2022.
以上是ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

Diffusion不仅可以更好地模仿,而且可以进行「创作」。扩散模型(DiffusionModel)是一种图像生成模型。与此前AI领域大名鼎鼎的GAN、VAE等算法,扩散模型另辟蹊径,其主要思想是一种先对图像增加噪声,再逐步去噪的过程。其中如何去噪还原原图像是算法的核心部分。最终算法能够从一张随机的噪声图像中生成图像。近年来,生成式AI的惊人增长将文本转换为图像生成、视频生成等领域的许多令人兴奋的应用提供了支持。这些生成工具背后的基本原理是扩散的概念,这是一种特殊的采样机制,克服了以前的方法中被

Kimi:一句话,十几秒钟,一份PPT就新鲜出炉了。PPT这玩意儿,可太招人烦了!开个碰头会,要有PPT;写个周报,要做PPT;拉个投资,要展示PPT;就连控诉出轨,都得发个PPT。大学更像是学了个PPT专业,上课看PPT,下课做PPT。或许,37年前丹尼斯・奥斯汀发明PPT时也没想到,有一天PPT竟如此泛滥成灾。吗喽们做PPT的苦逼经历,说起来都是泪。「一份二十多页的PPT花了三个月,改了几十遍,看到PPT都想吐」;「最巅峰的时候,一天做了五个PPT,连呼吸都是PPT」;「临时开个会,都要做个

北京时间6月20日凌晨,在西雅图举办的国际计算机视觉顶会CVPR2024正式公布了最佳论文等奖项。今年共有10篇论文获奖,其中2篇最佳论文,2篇最佳学生论文,另外还有2篇最佳论文提名和4篇最佳学生论文提名。计算机视觉(CV)领域的顶级会议是CVPR,每年都会吸引大量研究机构和高校参会。据统计,今年共提交了11532份论文,2719篇被接收,录用率为23.6%。根据佐治亚理工学院对CVPR2024的数据统计分析,从研究主题来看,论文数量最多的是图像和视频合成与生成(Imageandvideosyn

C语言作为一门广泛应用的编程语言,对于想从事计算机编程的人来说是必学的基础语言之一。然而,对于初学者来说,学习一门新的编程语言可能会有些困难,尤其是缺乏相关的学习工具和教材。在本文中,我将介绍五款帮助初学者入门C语言的编程软件,帮助你快速上手。第一款编程软件是Code::Blocks。Code::Blocks是一个免费的开源集成开发环境(IDE),适用于

我们知道LLM是在大规模计算机集群上使用海量数据训练得到的,本站曾介绍过不少用于辅助和改进LLM训练流程的方法和技术。而今天,我们要分享的是一篇深入技术底层的文章,介绍如何将一堆连操作系统也没有的「裸机」变成用于训练LLM的计算机集群。这篇文章来自于AI初创公司Imbue,该公司致力于通过理解机器的思维方式来实现通用智能。当然,将一堆连操作系统也没有的「裸机」变成用于训练LLM的计算机集群并不是一个轻松的过程,充满了探索和试错,但Imbue最终成功训练了一个700亿参数的LLM,并在此过程中积累

快速入门PyCharm社区版:详细安装教程全解析导言:PyCharm是一个功能强大的Python集成开发环境(IDE),它提供了一套全面的工具,可以帮助开发人员更高效地编写Python代码。本文将详细介绍如何安装PyCharm社区版,并提供具体的代码示例,帮助初学者快速入门。第一步:下载和安装PyCharm社区版要使用PyCharm,首先需要从其官方网站上下

标题:技术入门者必看:C语言和Python难易程度解析,需要具体代码示例在当今数字化时代,编程技术已成为一项越来越重要的能力。无论是想要从事软件开发、数据分析、人工智能等领域,还是仅仅出于兴趣学习编程,选择一门合适的编程语言是第一步。而在众多编程语言中,C语言和Python作为两种广泛应用的编程语言,各有其特点。本文将对C语言和Python的难易程度进行解析

机器之能报道编辑:杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。视频链接:https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ最近,独居女孩的生活Vlog在小红书上走红。一个插画风格的动画,再配上几句治愈系文案,短短几天就能轻松狂揽上
