首页 科技周边 人工智能 CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

Jun 03, 2024 pm 10:02 PM
产业 M3Act 合成数据生成框架

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

  • 论文链接:https://arxiv.org/abs/2306.16772
  • 项目链接:https://cjerry1243.github.io/M3Act/
  • 论文标题:M3Act: Learning from Synthetic Human Group Activities

引言

通过视觉信息识别、理解人群的行为是视频监测、交互机器人、自动驾驶等领域的关键技术之一,但获取大规模的人群行为标注数据成为了相关研究的发展瓶颈。如今,合成数据集正成为一种新兴的,用于替代现实世界数据的方法,但已有研究中的合成数据集主要聚焦于人体姿态与形状的估计。它们往往只提供单个人物的合成动画视频,而这并不适用于人群的视频识别任务。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

在这篇文章中,作者提出了一个适用于多群组人群行为的合成数据生成框架 M3Act。实验显示,该合成数据集可以大大提高下游模型在多人跟踪和群体活动识别上的性能,并可以在 DanceTrack 任务上替代超过 62.5% 的真实数据,从而在现实应用场景中降低数据标注成本。此外,该合成数据框架还提出一类新的任务:可控 3D 群体活动生成。该任务旨在利用多种输入(活动类别、群体大小、轨迹、密度、速度和文本输入)直接控制群体活动生成结果。作者严格定义了任务和指标,并提供了有竞争力的基线和结果。

数据生成
 
基于 Unity 引擎开发,M3Act 涵盖了多种行为类型的人群数据,提供了高度多样化和逼真的视频图像,以及全面的数据标记。与其他合成数据集相比,M3Act 提供了更为全面的标记数据,包括 2D 和 3D 标记以及细粒度的个人级别和群组级别标签,因此使其成为支持多人和多组研究任务的理想合成数据集生成器。 

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

数据生成器包括 25 个 3D 场景、104 个高动态范围全景图像、5 种光线设置、2200 个人物模型、384 个动画(14 个动作类别)和 6 个群体活动类型。数据生成过程如下所示,首先通过随机化过程确定一个模拟情景内的所有参数,然后根据参数生成带有背景对象、灯光和摄像机的 3D 场景,以及带有动画的人物模型群组。最后从多个视角渲染 RGB 图像并导出标记结果。 

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

为确保模拟数据具有高度多样性,M3Act 为数据生成过程的几乎所有方面提供随机化。这包括场景中的群体数量、每个群体中的人数、群体的位置、群体中人的排列、个体的位置、实例化角色的纹理,以及场景、照明条件、相机位置、角色、群体活动、原子动作和动画片段的选择。每个群体活动也被构建为一个参数化模块。这些参数包括群体中的个体数量和群体活动内允许的特定原子动作。

最终生成的数据集分为两个部分。第一部分 「M3ActRGB」 包含了 6000 次单一但多类型群体活动的模拟和 9000 次多群体多类型模拟,总计 600 万张 RGB 图像和 4800 万个边界框(bounding box)。第二部分 「M3Act3D」 仅包含 3D 数据。它由超过 65000 次 150 帧单一多类型群体活动的模拟组成,总时长达 87.6 小时。据作者所知,M3Act3D 的群体大小和互动复杂度显着高于以前的多人运动数据集,是第一个针对大型群体活动的大规模 3D 数据集。

实验结果

M3Act 的实际效果通过三个核心实验展示:多人跟踪、群体活动识别和可控群体活动生成。

实验一:多人跟踪

研究发现,在既有模型MOTRv2 [1] 的训练中添加合成数据后,模型在所有5 个指标上都有显着提高,特别是在HOTA 指标上的排名中从第10 位跃至第2 位。同时,当训练集中 62.5% 的真实数据被合成数据替换之后,模型依然可以取得相似的性能。另外,与其他合成数据源相比,如 BEDLAM 和 GTA-Humans,M3Act 为模型训练提供了更大的性能进步,表明其更适合多人群体活动任务。最后,下表展示了不同模型在 M3Act 下的训练结果。结果表明,M3Act 在各种模型中都是有效的。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

实验二:群体活动识别

类似地,M3Act 也提高了两个既有群体活动识别模型的性能,如下表所示:随着用于预训练的合成数据量的增加,识别准确性不断提高。使用100% 的合成数据时,群体活动识别模型Composer [2] 的准确率在群体级别平均提高了4.87%,个人级别提高了7.43%,而另一群体活动识别模型Actor Transformer [3] 在群体级别上看到了5.59% 准确率的增加,在个人级别上增加了5.43%。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

下表展示了使用不同输入模态在 CAD2 和 Volleyball(VD)上的群体识别准确率。实验中的性能增益表明,M3Act 的合成数据可以有效地利于下游任务,并横跨不同模型、输入模态和数据集。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

实验三:可控 3D 群体活动生成

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

作者提出了一个新型任务:可控 3D 群体活动生成。该任务旨在基于给定的活动类别标签和任意群体大小,从高斯噪声中合成一组 3D 人类动作。既有研究尽管可以生成多人动作,但它们限于双人场景或具有固定人数的群体。因此,作者提出了两个基线方法。在第一个基线方法中,群体活动通过重复调用单人运动扩散模型 MDM [4] 来实现,因此每个个体的生成过程都是独立的。第二个方法则基于 MDM 增加了一个互动变换器(IFormer)。由于其对人类互动的建模,MDM+IFormer 能够在一次前向传播中产生协调的群体活动。

作者从在群体和个体两个层面考虑以下评估指标:识别准确率、弗雷歇特初始距离(FID)、多样性和多模性。此外,作者基于社会力模型,在群体层面增补了四个基于位置的指标:碰撞频率、排斥互动力、接触排斥力和总排斥力。结果显示:

  •  MDM+IFormer 能够生成具有良好对齐的角色位置的群体活动。请参见下面的定性图。
  •  两个基线方法都能生成与输入条件匹配的多样化活动,但 MDM+IFormer 获得了更好的 FID 分数。
  • MDM+IFormer 中的互动变换器大大降低了生成的群体活动内的碰撞频率。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

结论

论文作者通过多模态和增强性能的三个核心实验以及引入一种新的生成任务,展示了 M3Act 的优点。在多人跟踪和群体活动识别实验中,他们观察到了随着更多合成数据的加入,模型对未见测试案例的泛化能力得到了改善。

此外,M3Act 中的合成数据可以替代部分目标领域的真实数据而不影响性能,从而有望减少训练过程中对大量真实数据的需求,进而降低了数据收集和标注的成本。这一发现证明了小样本甚至零样本从模拟数据迁移到现实数据的潜力。

在可控 3D 群体活动生成中,尽管 MDM+IFormer 只是这一任务的基线模型,它仍然学习到了人物运动的交互规则,并在控制下生成对齐良好的群体活动。值得注意的是,尽管生成方法目前表现不及程序化方法,但它展示了直接从各种信号(活动类别、群组大小、轨迹、密度、速度和文本输入)控制群体动作的潜力。随着未来数据可用性增加和生成模型能力的提升,论文作者预计生成方法最终将占据优势,在社会互动和人类集体活动方面得到更广泛应用。

尽管 M3Act 数据集中群体行为的复杂性可能受到数据生成过程中启发式规则的限制,M3Act 在整合新的群体活动方面提供了显著的灵活性,从而适应任何特定的下游任务。这些新群体可以来源于专家指导的启发式规则、大型语言模型生成的规则或可控 3D 群体活动生成模型的输出。此外,论文作者认识到合成数据与现实世界数据之间存在的领域差异。随着未来版本中数据生成器中资产的增加,可以提高模型的泛化能力并缓解这些差异。

[1] Yuang Zhang, Tiancai Wang, and Xiangyu Zhang. Motrv2: Bootstrapping end-to-end multi-object tracking by pretrained object detectors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 22056–22065, 2023.
[2] Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia, and Hans Peter Graf. Composer: Compositional reasoning of group activity in videos with keypoint-only modality. Proceedings of the 17th European Conference on Computer Vision (ECCV 2022), 2022.
[3] Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan, and Cees GM Snoek. Actor-transformers for group activity recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 839–848, 2020.
[4] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. arXiv preprint arXiv:2209.14916, 2022.

以上是CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1664
14
CakePHP 教程
1421
52
Laravel 教程
1315
25
PHP教程
1266
29
C# 教程
1239
24
DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者 DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷?巴黎奥运会正在如火如荼地进行中,乒乓球项目备受关注。与此同时,机器人打乒乓球也取得了新突破。刚刚,DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址:https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢?大概和人类业余选手不相上下:正手反手都会:对手采用多种打法,该机器人也能招架得住:接不同旋转的发球:不过,比赛激烈程度似乎不如公园老大爷对战。对机器人来说,乒乓球运动

首配机械爪!元萝卜亮相2024世界机器人大会,发布首个走进家庭的国际象棋机器人 首配机械爪!元萝卜亮相2024世界机器人大会,发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日,2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相,并最新发布元萝卜AI下棋机器人——国际象棋专业版(以下简称“元萝卜国象机器人”),成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品,全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新,首次在家用机器人上实现了通过机械爪拾取立体棋子,并进行人机对弈、人人对弈、记谱复盘等功能,

Claude也变懒了!网友:学会给自己放假了 Claude也变懒了!网友:学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至,该收心的不止有即将开启新学期的同学,可能还有AI大模型。前段时间,Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多,经常停顿,甚至输出也变得很短。在发布的第一周,它可以一次性翻译整整4页文稿,现在连半页都输出不了了!」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」,满满地

世界机器人大会上,这家承载「未来养老希望」的国产机器人被包围了 世界机器人大会上,这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上,人形机器人的展示成为了现场绝对的焦点,在星尘智能的展台上,由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏,能文能武,吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏,让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道,公司创始人来杰解释到,丝滑动作的背后,是硬件侧追求最好力控和最仿人身体指标(速度、负载等),而是在AI侧则采集人的真实动作数据,让机器人遇强则强,快速学习进化。而敏捷

ACL 2024奖项公布:华科大破译甲骨文最佳论文之一、GloVe时间检验奖 ACL 2024奖项公布:华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会,投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议,由国际计算语言学协会组织,每年举办一次。一直以来,ACL在NLP领域的学术影响力都位列第一,它也是CCF-A类推荐会议。今年的ACL大会已是第62届,接收了400余篇NLP领域的前沿工作。昨天下午,大会公布了最佳论文等奖项。此次,最佳论文奖7篇(两篇未公开)、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖(ResourceAward)3篇、社会影响力奖(

李飞飞团队提出ReKep,让机器人具备空间智能,还能整合GPT-4o 李飞飞团队提出ReKep,让机器人具备空间智能,还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时,加上最近老上头条的1X人形机器人NEO,你可能会产生一种感觉:我们似乎开始进入机器人时代了。事实上,这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道,有用的机器人往往需要与环境进行复杂精妙的交互,而环境则可被表示成空间域和时间域上的约束。举个例子,如果要让机器人倒茶,那么机器人首先需要抓住茶壶手柄并使之保持直立,不泼洒出茶水,然后平稳移动,一直到让壶口与杯口对齐,之后以一定角度倾斜茶壶。这

分布式人工智能盛会DAI 2024征稿:Agent Day,强化学习之父Richard Sutton将出席!颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 分布式人工智能盛会DAI 2024征稿:Agent Day,强化学习之父Richard Sutton将出席!颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展,人工智能已经成为了推动社会进步的重要力量。在这个时代,我们有幸见证并参与到分布式人工智能(DistributedArtificialIntelligence,DAI)的创新与应用中。分布式人工智能是人工智能领域的重要分支,这几年引起了越来越多的关注。基于大型语言模型(LLM)的智能体(Agent)异军突起,通过结合大模型的强大语言理解和生成能力,展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型,成为当前AI圈的热点话题。Au

鸿蒙智行享界S9及全场景新品发布会,多款重磅新品齐发 鸿蒙智行享界S9及全场景新品发布会,多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午,鸿蒙智行正式迎来了新品牌与新车。 8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

See all articles