首頁 科技週邊 人工智慧 CVPR 2024 | 合成視訊資料集只有單人資料? M3Act破解人群行為標註難題

CVPR 2024 | 合成視訊資料集只有單人資料? M3Act破解人群行為標註難題

Jun 03, 2024 pm 10:02 PM
產業 M3Act 合成資料生成框架

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

  • ##論文連結:https://arxiv. org/abs/2306.16772
  • 專案連結:https://cjerry1243.github.io/M3Act/
  • #論文標題:M3Act: Learning from Synthetic Human Group Activities

引言

#透過視覺訊息辨識、理解人群的行為是視訊監測、互動機器人、自動駕駛等領域的關鍵技術之一,但取得大規模的人群行為標註數據成為了相關研究的發展瓶頸。如今,合成資料集正成為一種新興的,用於取代現實世界資料的方法,但已有研究中的合成資料集主要聚焦於人體姿態與形狀的估計。它們往往只提供
單一人物的合成動畫視頻,而這並不適用於人群的視頻識別任務。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

在這篇文章中,作者提出了一個適用於多群組人群行為的合成資料生成框架 M3Act。實驗顯示,此合成資料集可以大幅提高下游模型在多人追蹤和群組活動識別上的效能,並且可以在 DanceTrack 任務上取代超過 62.5% 的真實數據,從而在現實應用情境中降低資料標註成本。此外,此合成資料框架也提出一類新的任務:可控 3D 群體活動生成。此任務旨在利用多種輸入(活動類別、群體大小、軌跡、密度、速度和文字輸入)直接控制群體活動產生結果。作者嚴格定義了任務和指標,並提供了有競爭力的基準和結果。

資料產生
 
基於Unity 引擎開發,M3Act 涵蓋了多種行為類型的人群數據,提供了高度多樣化和逼真的視訊影像,以及全面的數據標記。與其他合成資料集相比,M3Act 提供了更全面的標記數據,包括2D 和3D 標記以及細粒度的個人層級和群組層級標籤,因此使其成為支援多人和多組研究任務的理想合成數據集生成器。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

資料產生器包含25 個3D 場景、104 個高動態範圍全景影像、5 種光線設定、2200 個人物模型、384 個動畫(14 個動作類別)和6 個群體活動類型。資料產生過程如下所示,首先透過隨機化過程來確定一個模擬情境內的所有參數,然後根據參數產生具有背景物件、燈光和攝影機的 3D 場景,以及具有動畫的人物模型群組。最後從多個視角渲染 RGB 影像並匯出標記結果。 

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题#

为确保模拟数据具有高度多样性,M3Act 为数据生成过程的几乎所有方面提供随机化。这包括场景中的群体数量、每个群体中的人数、群体的位置、群体中人的排列、个体的位置、实例化角色的纹理,以及场景、照明条件、相机位置、角色、群体活动、原子动作和动画片段的选择。每个群体活动也被构建为一个参数化模块。这些参数包括群体中的个体数量和群体活动内允许的特定原子动作。

最终生成的数据集分为两个部分。第一部分 「M3ActRGB」 包含了 6000 次单一但多类型群体活动的模拟和 9000 次多群体多类型模拟,总计 600 万张 RGB 图像和 4800 万个边界框(bounding box)。第二部分 「M3Act3D」 仅包含 3D 数据。它由超过 65000 次 150 帧单一多类型群体活动的模拟组成,总时长达 87.6 小时。据作者所知,M3Act3D 的群体大小和互动复杂度显著高于以前的多人运动数据集,是第一个针对大型群体活动的大规模 3D 数据集。

实验结果

M3Act 的实际效果通过三个核心实验展示:多人跟踪、群体活动识别和可控群体活动生成。

实验一:多人跟踪

研究发现,在既有模型 MOTRv2 [1] 的训练中添加合成数据后,模型在所有 5 个指标上都有显著提高,特别是在 HOTA 指标上的排名中从第 10 位跃至第 2 位。同时,当训练集中 62.5% 的真实数据被合成数据替换之后,模型依然可以取得相似的性能。另外,与其他合成数据源相比,如 BEDLAM 和 GTA-Humans,M3Act 为模型训练提供了更大的性能进步,表明其更适合多人群体活动任务。最后,下表展示了不同模型在 M3Act 下的训练结果。结果表明,M3Act 在各种模型中都是有效的。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

实验二:群体活动识别

类似地,M3Act 也提高了两个既有群体活动识别模型的性能,如下表所示:随着用于预训练的合成数据量的增加,识别准确性不断提高。使用 100% 的合成数据时,群体活动识别模型 Composer [2] 的准确率在群体级别平均提高了 4.87%,个人级别提高了 7.43%,而另一群体活动识别模型 Actor Transformer [3] 在群体级别上看到了 5.59% 准确率的增加,在个人级别上增加了 5.43%。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

下表展示了使用不同输入模态在 CAD2 和 Volleyball(VD)上的群体识别准确率。实验中的性能增益表明,M3Act 的合成数据可以有效地利于下游任务,并横跨不同模型、输入模态和数据集。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

实验三:可控 3D 群体活动生成

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

作者提出了一個新型態任務:可控 3D 群體活動生成。該任務旨在基於給定的活動類別標籤和任意群體大小,從高斯噪聲中合成一組 3D 人類動作。既有研究儘管可以產生多人動作,但它們限於雙人場景或具有固定人數的群體。因此,作者提出了兩種基線方法。在第一個基線方法中,群體活動透過重複調用單人運動擴散模型 MDM [4] 來實現,因此每個個體的生成過程都是獨立的。第二個方法則是基於 MDM 增加了一個互動變換器(IFormer)。由於其對人類互動的建模,MDM+IFormer 能夠在一次前向傳播中產生協調的群體活動。

作者從在群體和個體兩個層面考慮以下評估指標:識別準確率、弗雷歇特初始距離(FID)、多樣性和多模性。此外,作者基於社會力模型,在群體層面增補了四個基於位置的指標:碰撞頻率、排斥互動力、接觸排斥力和總排斥力。結果顯示:

  •  MDM+IFormer 能夠產生具有良好對齊的角色位置的群體活動。請參考下面的定性圖。
  •  兩個基準方法都能產生與輸入條件相符的多樣化活動,但 MDM+IFormer 獲得了更好的 FID 分數。
  • MDM+IFormer 中的互動變換器大幅降低了產生的群體活動內的碰撞頻率。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题





論文作者透過多模態和增強性能的三個核心實驗以及引入一種新的生成任務,展示了M3Act 的優點。在多人追蹤和群體活動識別實驗中,他們觀察到了隨著更多合成數據的加入,模型對未見測試案例的泛化能力得到了改善。

此外,M3Act 中的合成資料可以取代部分目標領域的真實資料而不影響效能,從而有望減少訓練過程中對大量真實資料的需求,進而降低了資料收集和標註的成本。這項發現證明了小樣本甚至零樣本從模擬資料遷移到現實資料的潛力。
在可控3D 群體活動生成中,儘管MDM+IFormer 只是這項任務的基準模型,它仍然學習到了人物運動的互動規則,並在控制下產生對齊良好的群體活動。值得注意的是,儘管生成方法目前表現不如程序化方法,但它展示了直接從各種訊號(活動類別、群組大小、軌跡、密度、速度和文字輸入)控制群體動作的潛力。隨著未來數據可用性增加和生成模型能力的提升,論文作者預計生成方法最終將佔據優勢,在社會互動和人類集體活動方面更廣泛應用。
儘管 M3Act 資料集中群體行為的複雜性可能受到資料產生過程中啟發式規則的限制,M3Act 在整合新的群體活動方面提供了顯著的靈活性,從而適應任何特定的下游任務。這些新群體可以來自專家指導的啟發式規則、大型語言模型產生的規則或可控制 3D 群體活動生成模型的輸出。此外,論文作者認識到合成數據與現實世界數據之間存在的領域差異。隨著未來版本中資料產生器中資產的增加,可以提高模型的泛化能力並緩解這些差異。
[1] Yuang Zhang, Tiancai Wang, and Xiangyu Zhang. Motrv2: Bootstrapping end-to-end multi-object tracking by pretrained object detectors . In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 22056–22065, 2023.
#[2] Honglu Zhou, Asim K###############[2] Honglu Zhou, Asim K###############[2] Honglu Zhou, Asim K###############[2] Honglu Zhou, Asim K###############[2] Honglu Zhou, Asim K###############[2] Honglu Zhou, Asim K###############[2] Honglu Zhou, Asim K## # Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia, and Hans Peter Graf. Composer: Compositional reasoning of group activity in videos with keypoint-only Visionality. Proceedings of the 17th Europe Visionference ), 2022.##################[3] Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan, and Cees GM Snoek. Actor-transformers for group activity recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 839–848, 2020.###################[4] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. arXiv preprint arXiv:2209.14916, 2022.##########

以上是CVPR 2024 | 合成視訊資料集只有單人資料? M3Act破解人群行為標註難題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1670
14
CakePHP 教程
1428
52
Laravel 教程
1329
25
PHP教程
1274
29
C# 教程
1256
24
DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 DeepMind機器人打乒乓球,正手、反手溜到飛起,全勝人類初學者 Aug 09, 2024 pm 04:01 PM

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

首配機械爪!元蘿蔔亮相2024世界機器人大會,發布首個走進家庭的西洋棋機器人 首配機械爪!元蘿蔔亮相2024世界機器人大會,發布首個走進家庭的西洋棋機器人 Aug 21, 2024 pm 07:33 PM

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

Claude也變懶了!網友:學會給自己放假了 Claude也變懶了!網友:學會給自己放假了 Sep 02, 2024 pm 01:56 PM

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

世界機器人大會上,這家承載「未來養老希望」的國產機器人被包圍了 世界機器人大會上,這家承載「未來養老希望」的國產機器人被包圍了 Aug 22, 2024 pm 10:35 PM

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

ACL 2024獎項發表:華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 ACL 2024獎項發表:華科大破解甲骨文最佳論文之一、GloVe時間檢驗獎 Aug 15, 2024 pm 04:37 PM

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o 李飛飛團隊提出ReKep,讓機器人具備空間智能,還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

分散式人工智慧盛會DAI 2024徵稿:Agent Day,強化學習之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 分散式人工智慧盛會DAI 2024徵稿:Agent Day,強化學習之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學家將做主旨報告 Aug 22, 2024 pm 08:02 PM

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au

鴻蒙智行享界S9全場景新品發表會,多款重磅新品齊發 鴻蒙智行享界S9全場景新品發表會,多款重磅新品齊發 Aug 08, 2024 am 07:02 AM

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

See all articles