ホームページ テクノロジー周辺機器 AI ICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場

ICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場

Sep 27, 2023 pm 09:29 PM
はじめる

ヒューマン アクション生成タスクは、エンターテイメント、仮想現実、ロボット工学、その他の分野のニーズを満たすために、現実的な人間のアクション シーケンスを生成することを目的としています。従来の生成方法には、3D キャラクターの作成、キーフレーム アニメーション、モーション キャプチャなどの手順が含まれていますが、時間がかかる、専門的な技術知識が必要である、高価なシステムとソフトウェアが必要である、異なるソフトウェアとハ​​ードウェア システム間で互換性がある可能性があるなど、多くの制限があります。性的な問題など深層学習の発展に伴い、人々は生成モデルを使用して人間の動作シーケンスの自動生成を実現しようとし始めました。たとえば、テキストの説明を入力し、テキストの要件に一致する動作シーケンスを生成するようモデルに要求します。拡散モデルが現場に導入されるにつれて、生成されたアクションと特定のテキストの一貫性は向上し続けています。

しかし、生成されるアクションの自然さは改善されてきましたが、ユーザーのニーズとの間には依然として大きなギャップがあります。人間の動き生成アルゴリズムの機能をさらに向上させるために、本論文では MotionDiffuse [1] に基づく ReMoDiffuse アルゴリズム (図 1) を提案します。検索戦略を活用することで、関連性の高い参照サンプルを見つけ出し、より高品質なアクション シーケンスを生成するためのきめ細かい参照特徴を提供します。

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了

  • # 論文リンク: https:/ /arxiv.org/pdf/2304.01116.pdf

  • GitHub リンク: https://github.com/mingyuan-zhang/ReMoDiffuse

  • プロジェクトのホームページ: https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

拡散モデルと革新的な検索戦略を巧みに統合することにより、ReMoDiffuse はテキスト ガイドに新しい命を吹き込みます。人間の動きの生成。慎重に考えられたモデル構造により、ReMoDiffuse は、豊かで多様かつ非常に現実的なアクション シーケンスを作成できるだけでなく、さまざまな長さと多粒度のアクション要件にも効果的に対応できます。実験では、ReMoDiffuse がアクション生成の分野における複数の重要な指標で優れたパフォーマンスを示し、既存のアルゴリズムを大幅に上回っていることが証明されています。

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了#図 1. ReMoDiffuse の概要

メソッドの紹介

ReMoDiffuse の主なプロセスは、検索と拡散の 2 つの段階に分かれています。取得段階では、ReMoDiffuse はハイブリッド取得テクノロジーを使用して、ユーザー入力テキストと予想されるアクション シーケンスの長さに基づいて外部マルチモーダル データベースから情報豊富なサンプルを取得し、アクション生成のための強力なガイダンスを提供します。拡散段階では、ReMoDiffuse は検索段階で取得した情報を使用して、効率的なモデル構造を通じてユーザー入力と意味的に一貫したモーション シーケンスを生成します。取得段階のデータ フローは次のとおりです (図 2):

取得プロセスには 3 種類のデータが含まれます。つまり、ユーザー入力テキスト、予想されるアクション シーケンスの長さ、および複数の # を含む外部マルチモーダル データベースです。 ## ペア。最も関連性の高いサンプルを取得するとき、ReMoDiffuse は式

を使用して、各データベース内のサンプルとユーザー入力の間の類似性を計算します。ここでの最初の項目は、事前トレーニングされた CLIP [2] モデルのテキスト エンコーダーを使用して、ユーザー入力テキストとデータベース エンティティのテキスト間のコサイン類似度を計算することであり、2 番目の項目は、予想されるアクション シーケンスの長さの差を計算します。データベースエンティティのアクションシーケンスの長さの相対的な差異が運動学的類似度とみなされます。類似度スコアを計算した後、ReMoDiffuse は取得したサンプルと同様の類似度を持つ上位 k 個のサンプルを選択し、テキスト特徴

とアクション特徴

を抽出します。これら 2 つは、ユーザーが入力したテキストから抽出された特徴とともに、アクション生成をガイドする拡散ステージへの入力信号として使用されます。 ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了

図 2: ReMoDiffuse の取得フェーズICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了

拡散プロセス (図 3.c) は、順方向プロセスと逆方向プロセスの 2 つの部分で構成されます。順方向のプロセスでは、ReMoDiffuse は元のモーション データにガウス ノイズを徐々に追加し、最終的にランダム ノイズに変換します。逆プロセスは、ノイズを除去し、リアルなモーション サンプルを生成することに重点を置いています。 ReMoDiffuse は、ランダムなガウス ノイズから開始して、逆プロセスの各ステップでセマンティック変調モジュール (SMT) (図 3.a) を使用して真の分布を推定し、条件付き信号に基づいてノイズを段階的に除去します。ここでの SMT の SMA モジュールは、すべての条件情報を生成されたシーケンス特徴に統合します。これが、この記事で提案するコア モジュールです。

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了図 3 : ReMoDiffuse の拡散段階

#SMA 層 (図 3.b) では、効率的なアテンション メカニズム (Efficient tention) [3] を使用して加速します。アテンションモジュールを計算し、グローバル情報をより強調するグローバル特徴マップを作成します。この特徴マップは、アクション シーケンスのより包括的な意味論的な手がかりを提供するため、モデルのパフォーマンスが向上します。 SMA レイヤーの中心的な目標は、条件付き情報を集約することでアクション シーケンス ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了 の生成を最適化することです。このフレームワークの下:

1. Q ベクトルは、条件付き情報に基づいて生成すると予想されるアクション シーケンス ICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場 を具体的に表します。

2.Kベクトルは、現在のアクションシーケンスの特徴ICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場、ユーザーが入力した意味論的な特徴ICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場、検索サンプルから得られる特徴ICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場and##を含む複数の要素を包括的に考慮したインデックスメカニズムです。 #。このうち、ICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場は検索サンプルから得られた行動系列特徴量を表し、ICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場は検索サンプルから得られたテキスト記述特徴量を表す。この包括的な構築方法により、インデックス作成プロセスにおける K ベクトルの有効性が保証されます。 ICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場

3.V ベクトルは、アクションを生成するために必要な実際の機能を提供します。 K ベクトルと同様に、V ベクトルでは、検索サンプル、ユーザー入力、および現在のアクション シーケンスが考慮されます。取得したサンプルのテキスト説明特徴と生成されたアクションの間には直接の相関関係がないため、不必要な情報干渉を避けるために、V ベクトルを計算するときにこの特徴を使用しないことを選択します。

Efficient Attendee のグローバル アテンション テンプレート メカニズムと組み合わせると、SMA レイヤーは、検索サンプルからの補助情報、ユーザー テキストの意味情報、およびノイズ除去されるシーケンスの特徴情報を使用して、一連の包括的なアテンションを確立します。グローバル テンプレート、すべての条件の作成 情報は、生成されるシーケンスによって完全に吸収されます。

内容を書き直すには、元のテキストを中国語に変換する必要があります。書き換え後は次のようになります。 研究設計と実験結果

私たちは、HumanML3D [4] と KIT-ML [5] の 2 つのデータセットで ReMoDiffuse を評価しました。実験結果 (表 1 および 2) は、テキストの一貫性とアクションの品質の観点から、私たちが提案する ReMoDiffuse フレームワークの強力なパフォーマンスと利点を示しています。表 1. HumanML3D テスト セットでのさまざまなメソッドのパフォーマンス

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了##表 2. さまざまなメソッドのパフォーマンスKIT-ML テスト セットでの

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了#次は、ReMoDiffuse の強力なパフォーマンスを示すいくつかの例です (図 4)。以前の方法と比較して、たとえば、「人が円を描いてジャンプする」というテキストが与えられた場合、ReMoDiffuse だけが「ジャンプ」の動きと「円」のパスを正確にキャプチャできます。これは、ReMoDiffuse がテキストの詳細を効果的にキャプチャし、指定されたモーション継続時間にコンテンツを合わせることができることを示しています。

図 4. ReMoDiffuse によって生成されたアクション シーケンスの比較他の方法で生成されたアクション シーケンスと

#Guo らの方法 [4]、MotionDiffuse [1]、MDM [6] の結果を比較しました。生成された対応動作シーケンスを視覚的に表示し、テスト参加者の意見をアンケート形式で収集しました。結果の分布を図 5 に示します。この結果から明らかなように、ほとんどの場合、テスト参加者は、私たちの方法によって生成されたアクション シーケンス、つまり ReMoDiffuse によって生成されたアクション シーケンスが、4 つのアルゴリズムの中で与えられたテキストの説明と最も一致していると信じています。最も自然で滑らかです。 ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了#図 5: ユーザー調査結果の分布

引用 ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了 Mingyuan Zhang、Cai Zhonggang、Pan Liang、Hong Fangzhou、Guo Xinying、Yang Lei、Liu Ziwei。 Motiondiffuse: 拡散モデルに基づいたテキスト駆動の人間のモーション生成。 arXiv プレプリント arXiv:2208.15001、2022

[2] Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、 Jack Clark, et al. Learning transferable Visual models from Natural Language Superior. arXiv preprint arXiv:2103.00020, 2021.

##[3] Zhuoran Shen、Mingyuan Zhang、Haiyu Zhao、Shuai Yi、およびHonsheng Li. 効率的な注意: 線形複雑性による注意. コンピューター ビジョンのアプリケーションに関する IEEE/CVF 冬季会議議事録、3531 ~ 3539 ページ、2021.

[4 ] Chuan Guo 、Shihao Zou、Xinxin Zuo、Sen Wang、Wei Ji、Xingyu Li、および Li Cheng. テキストからの多様で自然な 3D 人間の動きの生成. コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、5152 ~ 5161 ページ、 2022.

書き直す必要があるのは、[5] マティアス プラパート、クリスチャン マンデリー、タミム アスフォーです。 「運動言語データセット」。 Big Data、4(4):236-252、2016

[6] Guy Tevet、Sigal Raab、Brian Gordon、Yonatan Shafir、Daniel Cohen-Or、および Amit H Bermano。人間の動作拡散モデル。第 11 回学習表現国際会議にて、2022.

以上がICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

パデュー大学による、時間をかける価値のある拡散モデルのチュートリアル パデュー大学による、時間をかける価値のある拡散モデルのチュートリアル Apr 07, 2024 am 09:01 AM

拡散はより良いものを模倣するだけでなく、「創造」することもできます。拡散モデル(DiffusionModel)は、画像生成モデルである。 AI 分野でよく知られている GAN や VAE などのアルゴリズムと比較すると、拡散モデルは異なるアプローチを採用しており、その主な考え方は、最初に画像にノイズを追加し、その後徐々にノイズを除去するプロセスです。ノイズを除去して元の画像を復元する方法は、アルゴリズムの中核部分です。最後のアルゴリズムは、ランダムなノイズを含む画像から画像を生成できます。近年、生成 AI の驚異的な成長により、テキストから画像への生成、ビデオ生成など、多くのエキサイティングなアプリケーションが可能になりました。これらの生成ツールの背後にある基本原理は、以前の方法の制限を克服する特別なサンプリング メカニズムである拡散の概念です。

ワンクリックでPPTを生成!キミ: まずは「PPT出稼ぎ労働者」を普及させましょう ワンクリックでPPTを生成!キミ: まずは「PPT出稼ぎ労働者」を普及させましょう Aug 01, 2024 pm 03:28 PM

キミ: たった 1 文の PPT がわずか 10 秒で完成します。 PPTはとても面倒です!会議を開催するには PPT が必要であり、週次報告書を作成するには PPT が必要であり、投資を勧誘するには PPT を提示する必要があり、不正行為を告発するには PPT を送信する必要があります。大学は、PPT 専攻を勉強するようなものです。授業中に PPT を見て、授業後に PPT を行います。おそらく、デニス オースティンが 37 年前に PPT を発明したとき、PPT がこれほど普及する日が来るとは予想していなかったでしょう。 PPT 作成の大変な経験を話すと涙が出ます。 「20 ページを超える PPT を作成するのに 3 か月かかり、何十回も修正しました。PPT を見ると吐きそうになりました。」 「ピーク時には 1 日に 5 枚の PPT を作成し、息をすることさえありました。」 PPTでした。」 即席の会議をするなら、そうすべきです

CVPR 2024 のすべての賞が発表されました!オフラインでのカンファレンスには1万人近くが参加し、Googleの中国人研究者が最優秀論文賞を受賞した CVPR 2024 のすべての賞が発表されました!オフラインでのカンファレンスには1万人近くが参加し、Googleの中国人研究者が最優秀論文賞を受賞した Jun 20, 2024 pm 05:43 PM

北京時間6月20日早朝、シアトルで開催されている最高の国際コンピュータビジョンカンファレンス「CVPR2024」が、最優秀論文やその他の賞を正式に発表した。今年は、最優秀論文 2 件と学生優秀論文 2 件を含む合計 10 件の論文が賞を受賞しました。また、最優秀論文ノミネートも 2 件、学生優秀論文ノミネートも 4 件ありました。コンピュータービジョン (CV) 分野のトップカンファレンスは CVPR で、毎年多数の研究機関や大学が集まります。統計によると、今年は合計 11,532 件の論文が投稿され、2,719 件が採択され、採択率は 23.6% でした。ジョージア工科大学による CVPR2024 データの統計分析によると、研究テーマの観点から最も論文数が多いのは画像とビデオの合成と生成です (Imageandvideosyn

C言語学習を始めるためのプログラミングソフト5選 C言語学習を始めるためのプログラミングソフト5選 Feb 19, 2024 pm 04:51 PM

C言語は広く使われているプログラミング言語であり、コンピュータプログラミングを志す人にとって必ず学ばなければならない基本的な言語の一つです。ただし、初心者にとって、特に関連する学習ツールや教材が不足しているため、新しいプログラミング言語を学習するのは難しい場合があります。この記事では、C言語初心者がすぐに始められるプログラミングソフトを5つ紹介します。最初のプログラミング ソフトウェアは Code::Blocks でした。 Code::Blocks は、無料のオープンソース統合開発環境 (IDE) です。

ベアメタルから 700 億のパラメータを備えた大規模モデルまで、チュートリアルとすぐに使えるスクリプトがここにあります ベアメタルから 700 億のパラメータを備えた大規模モデルまで、チュートリアルとすぐに使えるスクリプトがここにあります Jul 24, 2024 pm 08:13 PM

LLM が大量のデータを使用して大規模なコンピューター クラスターでトレーニングされていることはわかっています。このサイトでは、LLM トレーニング プロセスを支援および改善するために使用される多くの方法とテクノロジが紹介されています。今日、私たちが共有したいのは、基礎となるテクノロジーを深く掘り下げ、オペレーティング システムさえ持たない大量の「ベア メタル」を LLM のトレーニング用のコンピューター クラスターに変える方法を紹介する記事です。この記事は、機械がどのように考えるかを理解することで一般的な知能の実現に努めている AI スタートアップ企業 Imbue によるものです。もちろん、オペレーティング システムを持たない大量の「ベア メタル」を LLM をトレーニングするためのコンピューター クラスターに変換することは、探索と試行錯誤に満ちた簡単なプロセスではありませんが、Imbue は最終的に 700 億のパラメータを備えた LLM のトレーニングに成功しました。プロセスが蓄積する

PyCharm Community Edition インストール ガイド: すべての手順をすばやくマスターする PyCharm Community Edition インストール ガイド: すべての手順をすばやくマスターする Jan 27, 2024 am 09:10 AM

PyCharm コミュニティ版のクイック スタート: 詳細なインストール チュートリアル 完全な分析 はじめに: PyCharm は、開発者が Python コードをより効率的に作成できるようにする包括的なツール セットを提供する強力な Python 統合開発環境 (IDE) です。この記事では、PyCharm Community Edition のインストール方法を詳しく紹介し、初心者がすぐに使い始めるのに役立つ具体的なコード例を示します。ステップ 1: PyCharm Community Edition をダウンロードしてインストールする PyCharm を使用するには、まず公式 Web サイトからダウンロードする必要があります

技術初心者必読:C言語とPythonの難易度分析 技術初心者必読:C言語とPythonの難易度分析 Mar 22, 2024 am 10:21 AM

タイトル: 技術初心者必読: 具体的なコード例を必要とする C 言語と Python の難易度分析 今日のデジタル時代において、プログラミング技術はますます重要な能力となっています。ソフトウェア開発、データ分析、人工知能などの分野で働きたい場合でも、単に興味があってプログラミングを学びたい場合でも、適切なプログラミング言語を選択することが最初のステップです。数あるプログラミング言語の中でも、C言語とPythonは広く使われているプログラミング言語であり、それぞれに独自の特徴があります。この記事ではC言語とPythonの難易度を分析します。

AIの活用 | AIが一人暮らしの女の子の生活ビデオブログを作成、3日間で数万件の「いいね!」を獲得 AIの活用 | AIが一人暮らしの女の子の生活ビデオブログを作成、3日間で数万件の「いいね!」を獲得 Aug 07, 2024 pm 10:53 PM

Machine Power Report 編集者: Yang Wen 大型モデルや AIGC に代表される人工知能の波は、私たちの生活や働き方を静かに変えていますが、ほとんどの人はまだその使い方を知りません。そこで、直感的で興味深く、簡潔な人工知能のユースケースを通じてAIの活用方法を詳しく紹介し、皆様の思考を刺激するコラム「AI in Use」を立ち上げました。また、読者が革新的な実践的な使用例を提出することも歓迎します。ビデオリンク: https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ 最近、Xiaohongshu で一人暮らしの女の子の生活 vlog が人気になりました。イラスト風のアニメーションといくつかの癒しの言葉を組み合わせれば、数日で簡単に習得できます。

See all articles