CVPR 2024 | 合成ビデオデータセットには 1 人の人物データしかありませんか? M3Act は群衆の行動のラベル付けの問題を解決します-AI-php.cn

ホームページ

テクノロジー周辺機器

CVPR 2024 | 合成ビデオデータセットには 1 人の人物データしかありませんか? M3Act は群衆の行動のラベル付けの問題を解決します

王林

Jun 03, 2024 pm 10:02 PM

業界 M3Act 合成データ生成フレームワーク

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

紙のリンク: https://arxiv.org/abs/2306.16772
プロジェクトリンク: https://cjerry1243 。 github.io/M3Act/
論文タイトル: M3Act: 合成人間のグループ活動から学ぶ

はじめに

視覚情報による群衆の行動の認識と理解は、ビデオ監視、対話型ロボット、自動運転の分野です、などがキーテクノロジーの一つとなっているが、大規模な群衆行動アノテーションデータの取得が関連研究開発のボトルネックとなっている。現在、合成データセットは実世界のデータに代わる新たな手法になりつつありますが、既存の研究における合成データセットは主に人間の姿勢と形状の推定に焦点を当てています。多くの場合、一人の合成アニメーションビデオのみを提供しますが、これは群衆のビデオ認識タスクには適していません。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

この記事では、著者は、複数グループの群衆行動に適した合成データ生成フレームワークである M3Act を提案します。実験の結果、この合成データセットは、複数人の追跡とグループ活動認識における下流モデルのパフォーマンスを大幅に向上させることができ、DanceTrack タスクの実データの 62.5% 以上を置き換えることができるため、実際のアプリケーションでのデータアノテーションコストを削減できることが示されています。シナリオ。さらに、この合成データフレームワークは、制御可能な 3D 群アクティビティ生成という新しいクラスのタスクを提案します。このタスクは、複数の入力 (アクティビティカテゴリ、群れのサイズ、軌道、密度、速度、テキスト入力) を使用して、群れのアクティビティの生成結果を直接制御することを目的としています。著者はタスクと指標を厳密に定義し、競争力のあるベースラインと結果を提供します。

データ生成

Unity エンジンに基づいて開発された M3Act は、複数の行動タイプの群衆データをカバーし、非常に多様でリアルなビデオ画像、および包括的なデータラベリングを提供します。他の合成データセットと比較して、M3Act は、2D および 3D マーカー、きめ細かい個人レベルおよびグループレベルのラベルを含む、より包括的なラベル付きデータを提供するため、複数人および複数グループの研究タスクをサポートする理想的な合成となります。データセットジェネレータ。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

データジェネレーターには、25 の 3D シーン、104 のハイダイナミックレンジパノラマ画像、5 つのライト設定、2200 のキャラクターモデル、384 のアニメーション (14 のアクションカテゴリ)、および 6 つのグループアクティビティタイプが含まれています。データ生成プロセスは次のとおりです。まず、シミュレーションシナリオ内のすべてのパラメーターがランダム化プロセスを通じて決定され、次に、背景オブジェクト、ライト、カメラを含む 3D シーン、およびアニメーション付きのキャラクターモデルのグループがパラメーターに基づいて生成されます。。最後に、RGB 画像が複数の視点からレンダリングされ、ラベル付けされた結果がエクスポートされます。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

シミュレートされたデータの高度な多様性を確保するために、M3Act はデータ生成プロセスのほぼすべての側面にランダム化を提供します。これには、シーン内のグループの数、各グループ内の人の数、グループの位置、グループ内の人の配置、個人の位置、インスタンス化されたキャラクターのテクスチャ、およびシーンが含まれます。、照明条件、カメラの位置、キャラクター、グループアクティビティ、アトムアクションおよびアニメーションクリップの選択。各グループアクティビティは、パラメーター化されたモジュールとしても構築されます。これらのパラメータには、群れ内の個体数と、群れの活動内で許可される特定のアトミックアクションが含まれます。

最終的に生成されたデータセットは 2 つの部分に分割されます。最初のパート「M3ActRGB」には、単一だが複数のタイプのグループアクティビティの 6000 件のシミュレーションと、複数のグループと複数のタイプの 9000 件のシミュレーションが含まれており、合計 600 万の RGB 画像と 4,800 万の境界ボックスが含まれています。後半の「M3Act3D」には3Dデータのみが収録されています。これは、単一のマルチタイプのグループアクティビティの 65,000 を超える 150 フレームのシミュレーションで構成され、合計 87.6 時間になります。著者の知る限り、M3Act3D のグループサイズとインタラクションの複雑さは、以前のマルチプレイヤースポーツデータセットよりも大幅に高く、大規模なグループアクティビティ向けの初の大規模 3D データセットとなっています。

実験結果

M3Actの実際の効果は、複数人の追跡、グループ活動の認識、および制御可能なグループ活動の生成という3つの主要な実験を通じて実証されます。

実験 1: 複数人の追跡

研究では、既存のモデル MOTRv2 [1] のトレーニングに合成データを追加した後、モデルが 5 つの指標すべてにおいて有意であることがわかりました。 , 特にHOTA指標のランキング10位から2位まで。同時に、トレーニングセット内の実際のデータの 62.5% が合成データに置き換えられた場合でも、モデルは同様のパフォーマンスを達成できました。さらに、BEDLAM や GTA-Humans などの他の合成データソースと比較して、M3Act はモデルトレーニングのパフォーマンスが大幅に向上しており、複数人のグループアクティビティタスクにより適していることを示しています。最後に、以下の表は、M3Act でのさまざまなモデルのトレーニング結果を示しています。この結果から、M3Act はさまざまなモデルで有効であることがわかります。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

実験 2: グループ活動認識

同様に、M3Act は、次の表に示すように、2 つの既存のグループ活動認識モデルのパフォーマンスも向上させました。データ量が増加するにつれて、認識精度は向上し続けます。 100% 合成データを使用した場合、グループアクティビティ認識モデル Composer [2] の精度は、グループレベルで平均 4.87%、個人レベルで 7.43% 向上しましたが、別のグループアクティビティ認識モデル Actor Transformer [3] の精度は向上しました。グループレベルでは精度が 5.59% 増加し、個人レベルでは 5.43% の増加が見られました。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

以下の表は、さまざまな入力モダリティを使用した CAD2 とバレーボール (VD) でのグループ認識精度を示しています。実験によるパフォーマンスの向上は、M3Act の合成データが下流のタスクに効果的に利益をもたらし、さまざまなモデル、入力モダリティ、データセットにまたがることを示しています。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

実験 3: 制御可能な 3D グループアクティビティの生成

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

著者は、制御可能な 3D グループアクティビティの生成という新しいタイプのタスクを提案します。このタスクの目的は、指定されたアクティビティクラスラベルと任意の集団サイズに基づいて、ガウスノイズから 3D 人間のアクションのセットを合成することです。既存の研究ではマルチプレイヤーアクションを生成できますが、それは 2 人のシナリオまたは固定人数のグループに限定されています。したがって、著者らは 2 つのベースライン方法を提案します。最初のベースラインアプローチでは、グループアクティビティは、1 人の動作拡散モデル MDM [4] を繰り返し呼び出すことによって実装されるため、各個人の生成プロセスは独立しています。 2 番目の方法では、MDM に基づいて対話型トランスフォーマー (IFormer) を追加します。人間の対話をモデリングしているため、MDM+IFormer は単一の転送パスで調整されたグループアクティビティを生成できます。

著者は、認識精度、フレシェット初期距離 (FID)、多様性、マルチモダリティという評価指標をグループと個人の両方のレベルで考慮しています。さらに、社会力モデルに基づいて、著者は、衝突頻度、反発相互作用力、接触反発力、および総反発力という 4 つの位置ベースの指標をグループレベルで追加します。結果は次のことを示しています:

MDM+IFormer は、キャラクターの位置が適切に調整されたグループアクティビティを生成できます。以下の定性的なグラフを参照してください。
どちらのベースラインメソッドも入力条件に一致する多様なアクティビティを生成できますが、MDM+IFormer の方がより優れた FID スコアを達成します。
MDM+IFormer の対話型トランスフォーマーは、生成されたグループアクティビティ内の衝突の頻度を大幅に削減します。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

結論

論文の著者らは、マルチモダリティとパフォーマンスの強化に関する3つの主要な実験、および新世代タスクの導入を通じてM3Actの利点を実証しました。。複数人の追跡とグループ活動の認識に関する実験では、より多くの合成データが追加されるにつれて、目に見えないテストケースに対するモデルの一般化能力が向上することが観察されました。

さらに、M3Act の合成データは、パフォーマンスに影響を与えることなく、ターゲットフィールドの実データの一部を置き換えることができます。これにより、トレーニングプロセス中に大量の実データの必要性が減り、その結果、データ収集と注釈のコスト。この発見は、サンプルが小さいかゼロであっても、シミュレートされたデータから現実世界のデータに移行できる可能性を示しています。

制御可能な 3D グループアクティビティの生成では、MDM+IFormer はこのタスクのベースラインモデルにすぎませんが、キャラクターの動きのインタラクションルールを学習し、制御下で適切に調整されたグループアクティビティを生成します。特に、生成的アプローチは現在、手続き的アプローチよりも優れていますが、さまざまなシグナル (活動カテゴリー、グループのサイズ、軌道、密度、速度、テキスト入力) からグループの行動を直接制御できる可能性を示しています。将来的にデータの可用性が増加し、生成モデルの機能が向上するにつれて、著者らは、生成手法が最終的に優位性を獲得し、社会的相互作用や集団的な人間の活動においてより広く使用されるようになるだろうと予測しています。

M3Act データセットにおけるグループ動作の複雑さは、データ生成プロセスのヒューリスティックルールによって制限される可能性がありますが、M3Act は、特定の下流タスクに合わせて新しいグループアクティビティを統合する際に大幅な柔軟性を提供します。これらの新しいグループは、専門家がガイドするヒューリスティックルール、大規模な言語モデルによって生成されたルール、または制御可能な 3D グループアクティビティの生成モデルの出力から生成できます。さらに、この論文の著者は、合成データと現実世界のデータの間に存在する領域の違いを認識しています。将来のリリースでデータジェネレーターにアセットが追加されると、モデルの一般化機能が向上し、これらの違いを軽減できるようになります。

[1] Yuang Zhang、Tiancai Wang、および Xiangyu Zhang。Motrv2: 事前トレーニングされたオブジェクト検出器によるエンドツーエンドのマルチオブジェクト追跡のブートストラッピング、コンピュータービジョンとパターンに関する IEEE/CVF 会議の議事録。表彰、22056 ～ 22065 ページ、2023 年。

^{[2] 周宏陸、アシム・カダフ、アビブ・シャムシアン、耿世傑、ファーリー・ライ、ロン・ジャオ、ティン・リュー、ムバシル・カパディア、ハンス・ペーター・グラフ作曲家: 作曲家。第 17 回欧州コンピュータービジョン会議 (ECCV 2022) の議事録、2022 年。}

^{[3] Kirill Gavrilyuk、Ryan Sanford、Mehrsan Javan、Cees GM Snoek。グループアクティビティ認識のためのアクタートランスフォーマー。コンピュータービジョンとパターン認識に関する IEEE/CVF 会議議事録、839 ～ 848 ページ、2020 年。}

[4] Guy Tevet、Sigal Raab、Brian Gordon、Yonatan Shafir、Daniel Cohen-Or、Amit H Bermano のヒューマンモーション拡散モデル。arXiv プレプリント arXiv:2209.14916、2022。

以上がCVPR 2024 | 合成ビデオデータセットには 1 人の人物データしかありませんか? M3Act は群衆の行動のラベル付けの問題を解決しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1664

CakePHP チュートリアル

1423

Laravel チュートリアル

1317

PHP チュートリアル

1268

C# チュートリアル

1243

Related knowledge

DeepMind ロボットが卓球をすると、フォアハンドとバックハンドが空中に滑り出し、人間の初心者を完全に打ち負かしました Aug 09, 2024 pm 04:01 PM

でももしかしたら公園の老人には勝てないかもしれない？パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボットエージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

初のメカニカルクロー！元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した Aug 21, 2024 pm 07:33 PM

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition（以下、「Yuanluobot SenseRobot」という）をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

クロードも怠け者になってしまった！ネチズン: 自分に休日を与える方法を学びましょう Sep 02, 2024 pm 01:56 PM

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました Aug 22, 2024 pm 10:35 PM

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標（速度、負荷）を追求していると説明した。など）、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件（未発表2件）、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました Sep 03, 2024 pm 05:18 PM

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。、そしてティーポットを一定の角度に傾けます。これ

宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました Aug 08, 2024 am 07:02 AM

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザープリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマートスクリーン S5Pro など、スマートトラベル、スマートオフィスからスマートウェアに至るまで、多くの新しいオールシナリオスマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフルシナリオのスマートエコシステムを構築し続けています。すべてのインターネット。宏孟志興氏：スマートカー業界のアップグレードを促進するための徹底的な権限付与ファーウェイは中国の自動車業界パートナーと提携して、

分散型人工知能カンファレンス DAI 2024 論文募集: エージェントデイ、強化学習の父であるリチャードサットン氏が出席します。 Yan Shuicheng、Sergey Levine、DeepMind の科学者が基調講演を行います Aug 22, 2024 pm 08:02 PM

会議の紹介科学技術の急速な発展に伴い、人工知能は社会の進歩を促進する重要な力となっています。この時代に、分散型人工知能 (DAI) の革新と応用を目撃し、参加できることは幸運です。分散型人工知能は人工知能分野の重要な分野であり、近年ますます注目を集めています。大規模言語モデル (LLM) に基づくエージェントは、大規模モデルの強力な言語理解機能と生成機能を組み合わせることで、自然言語対話、知識推論、タスク計画などにおいて大きな可能性を示しました。 AIAgent は大きな言語モデルを引き継ぎ、現在の AI 界隈で話題になっています。アウ

See all articles

CVPR 2024 | 合成ビデオ データ セットには 1 人の人物データしかありませんか? M3Act は群衆の行動のラベル付けの問題を解決します

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

CVPR 2024 | 合成ビデオデータセットには 1 人の人物データしかありませんか? M3Act は群衆の行動のラベル付けの問題を解決します