ICCV 2023 | ReMoDiffuse, un nouveau paradigme qui remodèle la génération d'actions humaines et intègre des modèles de diffusion et des stratégies de récupération, est arrivé-IA-php.cn

Maison

ICCV 2023 | ReMoDiffuse, un nouveau paradigme qui remodèle la génération d'actions humaines et intègre des modèles de diffusion et des stratégies de récupération, est arrivé

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 27, 2023 pm 09:29 PM

入门

La tâche de génération d'action humaine vise à générer des séquences d'action humaine réalistes pour répondre aux besoins du divertissement, de la réalité virtuelle, de la robotique et d'autres domaines. Les méthodes de génération traditionnelles incluent des étapes telles que la création de personnages 3D, l'animation d'images clés et la capture de mouvements, qui présentent de nombreuses limites, telles que la lenteur, l'exigence de connaissances techniques professionnelles, l'implication de systèmes et de logiciels coûteux et la compatibilité possible entre différents systèmes logiciels et matériels. Problèmes sexuels, etc. Avec le développement de l'apprentissage profond, les gens ont commencé à essayer d'utiliser des modèles génératifs pour générer automatiquement des séquences d'actions humaines, par exemple en saisissant des descriptions textuelles et en exigeant que le modèle génère des séquences d'actions qui correspondent aux exigences du texte. À mesure que les modèles de diffusion sont introduits dans le domaine, la cohérence des actions générées avec un texte donné continue de s'améliorer.

Cependant, bien que le naturel des actions générées ait été amélioré, il existe encore un grand écart entre celui-ci et les besoins des utilisateurs. Afin d'améliorer encore les capacités de l'algorithme de génération de mouvement humain, cet article propose l'algorithme ReMoDiffuse (Figure 1) basé sur MotionDiffuse [1]. En utilisant la stratégie de récupération, nous trouvons des échantillons de référence très pertinents et fournissons des fonctionnalités de référence fines pour générer des séquences d'action de meilleure qualité

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

Lien papier : https://arxiv.org/pdf/2304.01116 .pdf
Lien GitHub : https://github.com/mingyuan-zhang/ReMoDiffuse
Page d'accueil du projet : https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

En fusionnant intelligemment la diffusion modèles dotés de stratégies de récupération innovantes, ReMoDiffuse insuffle une nouvelle vie à la génération d’actions humaines guidée par texte. Grâce à une structure de modèle soigneusement conçue, ReMoDiffuse est non seulement capable de créer des séquences d'action riches, diversifiées et très réalistes, mais peut également répondre efficacement à des exigences d'action de différentes longueurs et multi-granularités. Les expériences prouvent que ReMoDiffuse fonctionne bien sur plusieurs indicateurs clés dans le domaine de la génération d'actions, surpassant considérablement les algorithmes existants.

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Figure 1. Présentation de ReMoDiffuse

Introduction à la méthode

Le processus principal de ReMoDiffuse est divisé en deux étapes : la récupération et la diffusion. Au stade de la récupération, ReMoDiffuse utilise une technologie de récupération hybride pour récupérer des échantillons riches en informations à partir de bases de données multimodales externes en fonction du texte saisi par l'utilisateur et de la longueur attendue de la séquence d'action, fournissant ainsi des conseils puissants pour la génération d'actions. Au cours de l'étape de diffusion, ReMoDiffuse utilise les informations obtenues lors de l'étape de récupération pour générer des séquences de mouvement sémantiquement cohérentes avec les entrées de l'utilisateur via une structure de modèle efficace.

Afin de garantir une récupération efficace, ReMoDiffuse a soigneusement conçu le flux de données suivant pour la récupération étape (Figure 2) :

Il existe trois types de données impliquées dans le processus de récupération, à savoir le texte saisi par l'utilisateur, la longueur attendue de la séquence d'action et une base de données multimodale externe contenant plusieurs paires. Lors de la récupération des échantillons les plus pertinents, ReMoDiffuse utilise la formule ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 pour calculer la similarité entre les échantillons de chaque base de données et les entrées de l'utilisateur. Le premier élément ici consiste à calculer la similarité cosinus entre le texte saisi par l'utilisateur et le texte de l'entité de base de données à l'aide de l'encodeur de texte du modèle CLIP [2] pré-entraîné, et le deuxième élément calcule la différence entre la longueur attendue de la séquence d'action. et la longueur de la séquence d'action de l'entité de base de données. La différence relative est considérée comme la similarité cinématique. Après avoir calculé le score de similarité, ReMoDiffuse sélectionne les k meilleurs échantillons présentant une similarité similaire à celle des échantillons récupérés et extrait les caractéristiques de texte ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 et les caractéristiques d'action . Ces deux éléments, ainsi que les caractéristiques extraites du texte saisi par l'utilisateur, servent de signaux d'entrée à l'étape de diffusion pour guider la génération d'actions.

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Figure 2 : Phase de récupération de ReMoDiffuse

Le processus de diffusion (Figure 3.c) se compose de deux parties : le processus direct et le processus inverse. Dans le processus direct, ReMoDiffuse ajoute progressivement du bruit gaussien aux données de mouvement d'origine et les convertit finalement en bruit aléatoire. Le processus inverse se concentre sur la suppression du bruit et la génération d’échantillons de mouvement réalistes. À partir d'un bruit gaussien aléatoire, ReMoDiffuse utilise un module de modulation sémantique (SMT) (Figure 3.a) à chaque étape du processus inverse pour estimer la vraie distribution et supprimer progressivement le bruit en fonction du signal conditionnel. Le module SMA dans SMT intégrera ici toutes les informations de condition dans les caractéristiques de séquence générées, qui est le module de base proposé dans cet article

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Figure 3 : Étape de diffusion de ReMoDiffuse

Pour la couche SMA ( Figure 3.b), nous utilisons le mécanisme d'attention efficace (Efficient Attention) [3] pour accélérer le calcul du module d'attention et créer une carte de caractéristiques globale qui met davantage l'accent sur les informations globales. Cette carte de fonctionnalités fournit des indices sémantiques plus complets pour les séquences d'actions, améliorant ainsi les performances du modèle. L'objectif principal de la couche SMA est d'optimiser la génération de séquences d'actions ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 en agrégeant les informations de condition. Dans ce cadre :

1.Q vecteur représente spécifiquement la séquence d'action attendue ICCV 2023 | ReMoDiffuse, un nouveau paradigme qui remodèle la génération dactions humaines et intègre des modèles de diffusion et des stratégies de récupération, est arrivé que nous espérons générer sur la base d'informations conditionnelles. Le vecteur

2.K sert de mécanisme d'indexation qui prend en compte de manière exhaustive plusieurs facteurs, notamment les caractéristiques de la séquence d'action actuelle ICCV 2023 | ReMoDiffuse, un nouveau paradigme qui remodèle la génération dactions humaines et intègre des modèles de diffusion et des stratégies de récupération, est arrivé , les caractéristiques sémantiques saisies par l'utilisateur et les caractéristiques et obtenues à partir des échantillons de récupération. Parmi eux, ICCV 2023 | ReMoDiffuse, un nouveau paradigme qui remodèle la génération dactions humaines et intègre des modèles de diffusion et des stratégies de récupération, est arrivé représente les caractéristiques de séquence d'action obtenues à partir des échantillons de récupération, et représente les caractéristiques de description de texte obtenues à partir des échantillons de récupération. Cette méthode de construction complète garantit l'efficacité des vecteurs K dans le processus d'indexation.

Le vecteur 3.V fournit les fonctionnalités réelles nécessaires pour générer l'action. Semblable au vecteur K, le vecteur V prend en compte l'échantillon de récupération, les entrées de l'utilisateur et la séquence d'actions en cours. Puisqu'il n'y a pas de corrélation directe entre la fonctionnalité de description textuelle de l'échantillon récupéré et l'action générée, nous choisissons de ne pas utiliser cette fonctionnalité lors du calcul du vecteur V afin d'éviter des interférences d'informations inutiles

Combinée au mécanisme de modèle d'attention global d'Efficient Attention, la couche SMA utilise les informations auxiliaires de l'échantillon de récupération, les informations sémantiques du texte utilisateur et les informations sur les caractéristiques de la séquence à débruiter pour établir une série de modèles globaux complets. , de sorte que toutes les informations de condition puissent être entièrement absorbées par la séquence à générer.

Afin de réécrire le contenu, le texte original doit être converti en chinois. Voici à quoi cela ressemble après réécriture : Conception de la recherche et résultats expérimentaux

Nous avons évalué ReMoDiffuse sur deux ensembles de données, HumanML3D [4] et KIT-ML [5]. Les résultats expérimentaux (Tableaux 1 et 2) démontrent les puissantes performances et les avantages de notre framework ReMoDiffuse proposé du point de vue de la cohérence du texte et de la qualité de l'action

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Tableau 1. Performances des différentes méthodes sur l'ensemble de test HumanML3D

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Tableau 2. Performances des différentes méthodes sur l'ensemble de test KIT-ML

Voici quelques exemples montrant les puissantes performances de ReMoDiffuse (Figure 4). Par rapport aux méthodes précédentes, par exemple, étant donné le texte « Une personne saute en cercle », seul ReMoDiffuse est capable de capturer avec précision le mouvement de « saut » et la trajectoire du « cercle ». Cela démontre que ReMoDiffuse est capable de capturer efficacement les détails du texte et d'aligner le contenu sur des durées de mouvement données. affiché les séquences d'actions correspondantes générées par la méthode de Guo et al. [4], MotionDiffuse [1], MDM [6] et ReMoDiffuse, et recueilli les opinions des participants au test sous la forme d'un questionnaire. La distribution des résultats est présentée à la figure 5. Il ressort clairement des résultats que dans la plupart des cas, les participants au test pensent que la séquence d'actions générée par notre méthode, c'est-à-dire la séquence d'actions générée par ReMoDiffuse, est la plus cohérente avec la description textuelle donnée parmi les quatre algorithmes, et est aussi le plus naturel et le plus doux.

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Figure 5 : Répartition des résultats de l'enquête auprès des utilisateurs

Citation

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 Ming Yuan Zhang, Cai Zhonggang, Pan Liang, Hong Fangzhou, Guo Xinying, Yang Lei et Liu Ziwei. Motiondiffuse : génération de mouvements humains basée sur du texte et basée sur des modèles de diffusion. Préimpression arXiv arXiv:2208.15001, 2022 [2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. modèles visuels issus de la supervision du langage naturel. préimpression arXiv arXiv : 2103.00020, 2021.

[3] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi et Hongsheng Li. Conférence d'hiver IEEE/CVF sur les applications de la vision par ordinateur, pages 3531-3539, 2021.

[4] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li et Li Cheng. mouvements humains naturels en 3D à partir d'un texte. Dans les actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 5152-5161, 2022.

Le contenu qui doit être réécrit est : [5] Matthias Plappert, Christian Mandery. et Tamim Asfour. "Ensemble de données sur le langage moteur". Big Data, 4(4):236-252, 2016

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or et Amit H Bermano Modèle de diffusion du mouvement humain. Conférence internationale sur les représentations de l'apprentissage, 2022.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Commandes de chat et comment les utiliser

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7518

Tutoriel CakePHP

1378

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Un didacticiel sur le modèle de diffusion qui vaut votre temps, de l'Université Purdue Apr 07, 2024 am 09:01 AM

La diffusion permet non seulement de mieux imiter, mais aussi de « créer ». Le modèle de diffusion (DiffusionModel) est un modèle de génération d'images. Par rapport aux algorithmes bien connus tels que GAN et VAE dans le domaine de l’IA, le modèle de diffusion adopte une approche différente. Son idée principale est un processus consistant à ajouter d’abord du bruit à l’image, puis à la débruiter progressivement. Comment débruiter et restaurer l’image originale est la partie centrale de l’algorithme. L'algorithme final est capable de générer une image à partir d'une image bruitée aléatoirement. Ces dernières années, la croissance phénoménale de l’IA générative a permis de nombreuses applications passionnantes dans la génération de texte en image, la génération de vidéos, et bien plus encore. Le principe de base de ces outils génératifs est le concept de diffusion, un mécanisme d'échantillonnage spécial qui surmonte les limites des méthodes précédentes.

Générez du PPT en un seul clic ! Kimi : Que les « travailleurs migrants PPT » deviennent d'abord populaires Aug 01, 2024 pm 03:28 PM

Kimi : En une seule phrase, un PPT est prêt en seulement dix secondes. PPT est tellement ennuyeux ! Pour tenir une réunion, vous devez avoir un PPT ; pour rédiger un rapport hebdomadaire, vous devez avoir un PPT ; pour solliciter des investissements, vous devez présenter un PPT ; même pour accuser quelqu'un de tricherie, vous devez envoyer un PPT ; L'université ressemble plus à une spécialisation PPT. Vous regardez le PPT en classe et faites le PPT après les cours. Peut-être que lorsque Dennis Austin a inventé le PPT il y a 37 ans, il ne s'attendait pas à ce qu'un jour le PPT devienne aussi répandu. Parler de notre dure expérience de création de PPT nous fait monter les larmes aux yeux. "Il m'a fallu trois mois pour réaliser un PPT de plus de 20 pages, et je l'ai révisé des dizaines de fois. J'avais envie de vomir quand j'ai vu le PPT." "À mon apogée, je faisais cinq PPT par jour, et même ma respiration." était PPT." Si vous avez une réunion impromptue, vous devriez le faire

Tous les prix CVPR 2024 annoncés ! Près de 10 000 personnes ont assisté à la conférence hors ligne et un chercheur chinois de Google a remporté le prix du meilleur article. Jun 20, 2024 pm 05:43 PM

Tôt le matin du 20 juin, heure de Pékin, CVPR2024, la plus grande conférence internationale sur la vision par ordinateur qui s'est tenue à Seattle, a officiellement annoncé le meilleur article et d'autres récompenses. Cette année, un total de 10 articles ont remporté des prix, dont 2 meilleurs articles et 2 meilleurs articles étudiants. De plus, il y a eu 2 nominations pour les meilleurs articles et 4 nominations pour les meilleurs articles étudiants. La conférence la plus importante dans le domaine de la vision par ordinateur (CV) est la CVPR, qui attire chaque année un grand nombre d'instituts de recherche et d'universités. Selon les statistiques, un total de 11 532 articles ont été soumis cette année, dont 2 719 ont été acceptés, avec un taux d'acceptation de 23,6 %. Selon l'analyse statistique des données CVPR2024 du Georgia Institute of Technology, du point de vue des sujets de recherche, le plus grand nombre d'articles est la synthèse et la génération d'images et de vidéos (Imageandvideosyn

Cinq logiciels de programmation pour débuter l'apprentissage du langage C Feb 19, 2024 pm 04:51 PM

En tant que langage de programmation largement utilisé, le langage C est l'un des langages de base qui doivent être appris pour ceux qui souhaitent se lancer dans la programmation informatique. Cependant, pour les débutants, l’apprentissage d’un nouveau langage de programmation peut s’avérer quelque peu difficile, notamment en raison du manque d’outils d’apprentissage et de matériel pédagogique pertinents. Dans cet article, je présenterai cinq logiciels de programmation pour aider les débutants à démarrer avec le langage C et vous aider à démarrer rapidement. Le premier logiciel de programmation était Code :: Blocks. Code::Blocks est un environnement de développement intégré (IDE) gratuit et open source pour

Du bare metal au grand modèle avec 70 milliards de paramètres, voici un tutoriel et des scripts prêts à l'emploi Jul 24, 2024 pm 08:13 PM

Nous savons que le LLM est formé sur des clusters informatiques à grande échelle utilisant des données massives. Ce site a présenté de nombreuses méthodes et technologies utilisées pour aider et améliorer le processus de formation LLM. Aujourd'hui, ce que nous souhaitons partager est un article qui approfondit la technologie sous-jacente et présente comment transformer un ensemble de « bare metals » sans même un système d'exploitation en un cluster informatique pour la formation LLM. Cet article provient d'Imbue, une startup d'IA qui s'efforce d'atteindre une intelligence générale en comprenant comment les machines pensent. Bien sûr, transformer un tas de « bare metal » sans système d'exploitation en un cluster informatique pour la formation LLM n'est pas un processus facile, plein d'exploration et d'essais et d'erreurs, mais Imbue a finalement réussi à former un LLM avec 70 milliards de paramètres et dans. le processus s'accumule

Guide d'installation de PyCharm Community Edition : maîtrisez rapidement toutes les étapes Jan 27, 2024 am 09:10 AM

Démarrage rapide avec PyCharm Community Edition : Tutoriel d'installation détaillé Analyse complète Introduction : PyCharm est un puissant environnement de développement intégré (IDE) Python qui fournit un ensemble complet d'outils pour aider les développeurs à écrire du code Python plus efficacement. Cet article présentera en détail comment installer PyCharm Community Edition et fournira des exemples de code spécifiques pour aider les débutants à démarrer rapidement. Étape 1 : Téléchargez et installez PyCharm Community Edition Pour utiliser PyCharm, vous devez d'abord le télécharger depuis son site officiel

L'IA utilisée | L'IA a créé un vlog sur la vie d'une fille vivant seule, qui a reçu des dizaines de milliers de likes en 3 jours Aug 07, 2024 pm 10:53 PM

Rédacteur du Machine Power Report : Yang Wen La vague d’intelligence artificielle représentée par les grands modèles et l’AIGC a discrètement changé notre façon de vivre et de travailler, mais la plupart des gens ne savent toujours pas comment l’utiliser. C'est pourquoi nous avons lancé la rubrique « AI in Use » pour présenter en détail comment utiliser l'IA à travers des cas d'utilisation de l'intelligence artificielle intuitifs, intéressants et concis et stimuler la réflexion de chacun. Nous invitons également les lecteurs à soumettre des cas d'utilisation innovants et pratiques. Lien vidéo : https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ Récemment, le vlog de la vie d'une fille vivant seule est devenu populaire sur Xiaohongshu. Une animation de style illustration, associée à quelques mots de guérison, peut être facilement récupérée en quelques jours seulement.

A lire absolument pour les débutants en technique : Analyse des niveaux de difficulté du langage C et Python Mar 22, 2024 am 10:21 AM

Titre : Une lecture incontournable pour les débutants en technique : Analyse des difficultés du langage C et de Python, nécessitant des exemples de code spécifiques. À l'ère numérique d'aujourd'hui, la technologie de programmation est devenue une capacité de plus en plus importante. Que vous souhaitiez travailler dans des domaines tels que le développement de logiciels, l'analyse de données, l'intelligence artificielle ou simplement apprendre la programmation par intérêt, choisir un langage de programmation adapté est la première étape. Parmi les nombreux langages de programmation, le langage C et Python sont deux langages de programmation largement utilisés, chacun ayant ses propres caractéristiques. Cet article analysera les niveaux de difficulté du langage C et Python

See all articles