CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动-人工智能-PHP中文网

首页

科技周边

人工智能

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

王林

Jul 17, 2024 am 02:09 AM

工程

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者蒋楠是北京大学智能学院二年级博士生，指导教师朱毅鑫教授，与北京通用人工智能研究院黄思远博士联合开展研究工作。他的研究重点是人-物交互理解和数字人的动作生成，并于ICCV，CVPR和ECCV等顶会发表多篇论文。

近年来，人物动作生成的研究取得了显着的进展，在众多领域，如计算机视觉、计算机图形学、机器人技术以及人机交互等方面获得广泛的关注。然而，现有工作大多只关注动作本身，以场景和动作类别同时作为约束条件的研究依然处于起步阶段。

为了解决这一问题，北京通用人工智能研究院联合北京大学、北京理工大学的研究员提出了一种使用自回归条件扩散模型的动作生成框架，实现真实、带有语义、符合场景且无长度限制的动作生成。此外，文章发布了大规模人物 - 场景交互数据集 TRUMANS，包含准确且丰富的针对人物动作以及三维场景的标注信息。

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

论文链接：https://arxiv.org/pdf/2403.08629
项目主页：https://jnnan.github.io/trumans/
代码、数据链接：https ://github.com/jnnan/trumans_utils

研究概述

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

^{图1. 人物- 场景交互动作生成方法和TRUMANS 数据集}

与场景物体的交互是人们日常活动的重要组成部分，例如坐在椅子上、拿起瓶子或打开抽屉等动作。如今，仿真人类肢体动作已成为计算机视觉、计算机图形学、机器人技术和人机交互等领域的一项重要任务。生成人体动作的核心目标在于创造自然、逼真且多样化的动态模式。深度学习技术的兴起使人体动作生成方法得到飞速发展。人体建模技术的重大突破也使构建庞大的人体动作数据库变得更为便捷。基于这些进展，近年来以数据为驱动的人体动作生成技术越来越受到研究界的重视。

目前，多数动作生成的方法以语义作为控制变量，在给定交互物体[1] 和场景[2] 的条件下生成动作的研究仍处于起步阶段，这主要由于缺乏高质量人体动作与场景交互数据集。现有的真实场景数据集在人体动作捕捉质量方面仍有不足。尽管通过 VICON 等设备录制的动作捕捉数据集能够带来质量的提升，但这些数据集缺乏多样化的 3D 场景中人与物体的交互。最近，使用虚拟仿真技术的合成数据集因其低成本和高适应性而引起研究者们的关注。

针对现有方法的不足，本文提出了一种融合场景和语义信息的动作生成框架，由自回归的扩散模型作为驱动，能够在给定动作类别和路径点的条件下，生成符合场景约束的人物动作。为了获取场景中的动作数据，本工作发布了一个全新的人物- 场景交互数据集TRUMANS，包含在真实世界捕捉的15 小时动作数据，并合成到3D 虚拟场景中，覆盖了卧室、餐厅和办公室等100 个场景配置。 TRUMANS 包含寻路、物体操作、及与刚性和铰接物体的交互等全面的日常行为。

动作生成框架

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

^{圖 2. 本文中所產生的動作產生架構中產生為自有機制，以情境和動作類別的條件控制動作產生。}

本研究提出的方法採用自回歸的方式逐段產生動作。段內的起始動作源自於上段末，後續動作由擴散模型產生。為了使生成的動作符合場景約束，作者基於空間佔有網格提出一個局部場景感知器，將每段動作終點附近環境的特徵編碼，並納入動作生成模型的條件。為了將逐幀的動作標籤作為可控條件納入，動作資訊編碼器將時間資訊整合到動作片段中，使得模型可以在任意時刻接受指令，並產生符合給定動作標籤的運動。

本文提出的方法可以支持路徑軌跡約束以及精確的關節位置控制。由於本文方法採用了自回歸逐段生成的機制，路徑和關節約束可以透過為每段動作產生設定子目標的方式來實現。對於行走動作控制，每個子目標描述了當前段落末端人物骨盆在水平面的預設位置。根據當前段落的起始和終止位置之間的場景訊息，模型產生包含骨盆運動軌跡在內的全身動作。例如，當子目標位於椅子上時，需要讓角色坐下。對於涉及物體抓握的動作，手部的位置控制也使用相同的技巧。例如產生抓取瓶子或推門等動作時，將手部關節位置設為子目標，並由使用者設定在物體上的期望位置。模型將關節上的雜訊歸零並補全其餘部分的人體動作。進一步的精細接觸是透過優化手與物體的相對位置的方式來實現。

本地場景感知器用於獲取本地場景幾何信息，並將其作為運動生成的條件。具體來說，給定一個場景，首先產生一個全域佔用網格，每個單元格被分配一個布林值表示其是否可達，1 表示可達，0 表示不可達。本地佔用網格是以當前循環節的子目標為中心的三維網格，垂直範圍內從 0 米到 1.8 米，方向與第一幀中角色骨盆的偏航方向對齊。本地佔用網格的值透過查詢全域佔用網格來取得。本文提出使用 Vision Transformer (ViT) 對體素網格進行編碼。沿著 xy 平面劃分本地佔用網格，將 z 軸視為特徵通道來建立 Token，並將這些 Token 輸入到 ViT 模型中。場景經過 ViT 編碼後的輸出被用作動作生成模型的條件。

與先前基於單一動作描述產生完整動作序列的方法不同，本文在產生長期動作時逐幀使用動作標籤作為條件。在這個模型中，一個特定動作可能會超過一個循環節，並在多個循環節中繼續。因此模型需要理解動作執行的過程。為了解決這個問題，本研究引入了一個進度標識符，用於支援逐幀的動作類別標籤。具體實現方式為在原始 multi-hot 動作標籤上，對每段完整的交互添加一個 0 到 1 之間隨時間線性增長的數。這樣的操作使得模型能夠應對跨多個循環節的動作，並增強生成動作序列的語意完整性和連續性。

資料集

資料方面，本文發布了全新的人物- 場景交互資料集TRUMANS，精確地複製了3D 合成場景到物理環境中，兼具資料品質與規模； 15 小時的長序列人體動作捕捉，搭配100 個室內場景，類別包含臥室，客廳和辦公室等。儘管場景是合成的，作者透過對每個合成場景的細緻還原，確保了人與物體之間的互動保持自然且精確。 TRUMANS 動作涵蓋日常人物行為，包括尋路、抓取，以及與剛性和鉸接物體的互動。為了進一步提高數據的可擴展性，本文應用了一種基於現有數據進行數據增強方式，使得數據集中的物體可以在一定範圍內改變位置和尺寸，並自動更新人物動作以匹配變化。

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

^{圖 3. TRUMANS 動作捕捉資料集}
^{圖 4. 依變化的物件尺寸自動調整動作，以高效率擴充}
以下是本文所提出的動作產生方法的應用場景範例。
（1）基於給定的路徑關鍵點，本文方法能夠產生多樣的場景中行走動作，且人物對場景中的障礙物有自然的回饋。
（2）本文方法適用於手持小物體的抓取和互動動作產生。例如走近並抓取放置於桌上的水瓶，並做出喝水的動作。完成過程中需根據場景佈局調整動作。
（3）基於給定手部運動軌跡，產生滿足該軌蹟的全身動作，且不與場景中的物體發生衝突。

圖6. 已知手部動作路徑與情境的全身動作產生
圖7. 手持小物體的交互動作生成

為了量化本文方法的性能，作者根據交互物體可動與否構建了兩套評價體系。對於靜態互動物體，本文評測的動作包含坐，躺，以及在場景中的走動。評測指標主要針對動作是否與場景發生穿模，腳部滑動，以及受試者對生成品質的主觀評估。而對於動態互動物體，本文關注抓握的過程以及後續的互動動作。評價指標量化了動作是否符合給定的類別，動作的多樣性，穿模程度，以及受試者主觀評價。此外，研究也比較了使用 TRUMANS 以及現有的 PROX 和 GRAB 資料集訓練所得到的動作生成品質。實驗結果證實了本文所提方法的優越性，以及 TRUMANS 數據對人物 - 場景交互生成任務帶來的全面品質提升。

以上是CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1666

CakePHP 教程

1425

Laravel 教程

1327

PHP教程

1273

C# 教程

1253

显示更多

Related knowledge

ControlNet作者又出爆款！一张图生成绘画全过程，两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频，PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了！这次瞄准绘画领域。新项目PaintsUndo刚上线不久，就收获1.4kstar（还在疯狂涨）。项目地址：https://github.com/lllyasviel/Paints-UNDO通过该项目，用户输入一张静态图像，PaintsUndo就能自动帮你生成整个绘画的全过程视频，从线稿到成品都有迹可循。绘制过程，线条变化多端甚是神奇，最终视频结果和原图像非常相似：我们再来看一个完整的绘

登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校（UIUC）张令明老师团队，包括：StevenXia，四年级博士生，研究方向是基于AI大模型的自动代码修复；邓茵琳，四年级博士生，研究方

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RL

arXiv论文可以发「弹幕」了，斯坦福alphaXiv讨论平台上线，LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯！当论文讨论细致到词句，是什么体验？最近，斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv，可以直接在任何arXiv论文之上发布问题和评论。网站链接：https://alphaxiv.org/其实不需要专门访问这个网站，只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文：可以精准定位到论文中的段落、句子：右侧讨论区，用户可以发表问题询问作者论文思路、细节，例如：也可以针对论文内容发表评论，例如：「给出至

黎曼猜想显着突破！陶哲轩强推MIT、牛津新论文，37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近，被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题，与素数分布的精确性质有关（素数是那些只能被1和自身整除的数字，它们在数论中扮演着基础性的角色）。在当今的数学文献中，已有超过一千条数学命题以黎曼猜想（或其推广形式）的成立为前提。也就是说，黎曼猜想及其推广形式一旦被证明，这一千多个命题将被确立为定理，对数学领域产生深远的影响；而如果黎曼猜想被证明是错误的，那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

OpenAI超级对齐团队遗作：两个大模型博弈一番，输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂，你敢用吗？随着机器学习系统在更重要的领域得到应用，证明为什么我们可以信任它们的输出，并明确何时不应信任它们，变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是，要求系统对其输出产生一种解释，这种解释对人类或另一个受信任的系统来说是可读的，即可以完全理解以至于任何可能的错误都可以被发现。例如，为了建立对司法系统的信任，我们要求法院提供清晰易读的书面意见，解释并支持其决策。对于大型语言模型来说，我们也可以采用类似的方法。不过，在采用这种方法时，确保语言模型生

LLM用于时序预测真的不行，连推理能力都没用到 Jul 15, 2024 pm 03:59 PM

语言模型真的能用于时序预测吗？根据贝特里奇头条定律（任何以问号结尾的新闻标题，都能够用「不」来回答），答案应该是否定的。事实似乎也果然如此：强大如斯的LLM并不能很好地处理时序数据。时序，即时间序列，顾名思义，是指一组按照时间发生先后顺序进行排列的数据点序列。在很多领域，时序分析都很关键，包括疾病传播预测、零售分析、医疗和金融。在时序分析领域，近期不少研究者都在研究如何使用大型语言模型（LLM）来分类、预测和检测时间序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的语言模型也能泛化用于时间序

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。引言近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显着的成功。然而，作为许多下游任务的基础模型，当前的MLLM由众所周知的Transformer网络构成，这种网

See all articles

CVPR'24 Highlight｜一个框架搞定人物动作生成，精细到手部运动

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题