Maison > Périphériques technologiques > IA > 'Portail de contrôle de scène : téléportation d'objets quatre en un, soumis et produit par des fourmis'

'Portail de contrôle de scène : téléportation d'objets quatre en un, soumis et produit par des fourmis'

WBOY
Libérer: 2023-09-12 16:05:02
avant
1040 Les gens l'ont consulté

Dans les opérations courantes d'édition d'images, la synthèse d'images fait référence au processus de combinaison de l'objet de premier plan d'une image avec une autre image d'arrière-plan pour générer une image composite. L'effet visuel de l'image synthétisée est similaire au transfert de l'objet de premier plan d'une image à une autre image d'arrière-plan, comme le montre la figure ci-dessous.

Portail de contrôle de scène : téléportation dobjets quatre en un, soumis et produit par des fourmis

La synthèse d'image est utilisée dans la création artistique, la conception d'affiches, le commerce électronique et la réalité virtuelle. , L'augmentation des données et d'autres domaines sont largement utilisés

Les images synthétiques obtenues par simple copier-coller peuvent présenter de nombreux problèmes. Dans des travaux de recherche antérieurs, la synthèse d’images dérivait différentes sous-tâches pour résoudre respectivement différents sous-problèmes. Le mélange d’images, par exemple, vise à résoudre les frontières artificielles entre le premier plan et l’arrière-plan. L'harmonisation de l'image vise à ajuster l'éclairage du premier plan pour qu'il s'harmonise avec l'arrière-plan. L'ajustement de la perspective vise à ajuster la pose du premier plan afin qu'il corresponde à l'arrière-plan. Le placement d'objets vise à prédire l'emplacement, la taille et l'angle de perspective appropriés pour les objets au premier plan. La génération d'ombres vise à générer des ombres raisonnables pour les objets de premier plan sur l'arrière-plan

Comme le montre la figure ci-dessous, des travaux de recherche antérieurs ont effectué les sous-tâches ci-dessus de manière série ou parallèle pour obtenir des images synthétiques réalistes et naturelles. Dans le cadre sériel, nous pouvons exécuter sélectivement certaines sous-tâches en fonction des besoins réels. Dans le cadre parallèle, la méthode actuellement populaire consiste à utiliser le modèle de diffusion. Il accepte une image d'arrière-plan avec un cadre de délimitation au premier plan et une image d'objet au premier plan en entrée et génère directement l'image composite finale. Cela permet à l'objet de premier plan d'être intégré de manière transparente à l'image d'arrière-plan, les effets d'éclairage et d'ombre sont raisonnables et la posture est adaptée à l'arrière-plan. Ce cadre parallèle équivaut à exécuter plusieurs sous-tâches en même temps. Il ne peut pas en exécuter sélectivement certaines. Les sous-tâches et le sexe ne sont pas contrôlables, peuvent apporter des changements inutiles ou déraisonnables à la posture ou à la couleur des objets au premier plan.

Ce qui doit être réécrit est :

Afin d'améliorer la contrôlabilité du cadre parallèle et d'en exécuter certaines de manière sélective. sous-tâches, nous avons proposé le modèle de composition d'image contrôlable ControlCom (ControlCom). Comme le montre la figure ci-dessous, nous utilisons un vecteur indicateur comme informations de condition du modèle de diffusion pour contrôler les propriétés des objets de premier plan dans l'image composite. Le vecteur indicateur est un vecteur binaire bidimensionnel, où chaque dimension contrôle s'il faut ajuster respectivement les attributs d'éclairage et les attributs de posture de l'objet au premier plan, où 1 signifie ajustement, 0 signifie conserver
Portail de contrôle de scène : téléportation dobjets quatre en un, soumis et produit par des fourmis Plus précisément, (0,0) signifie ni changer l'éclairage de premier plan ne modifie pas la posture du premier plan, mais mélange simplement l'objet de manière transparente dans l'image d'arrière-plan, ce qui équivaut à un mélange d'images. (1,0) signifie uniquement modifier l'éclairage du premier plan pour le rendre harmonieux avec l'arrière-plan et conserver la posture du premier plan, ce qui équivaut à une harmonisation de l'image. (0,1) signifie uniquement changer la pose du premier plan pour qu'elle corresponde à l'arrière-plan et conserver l'éclairage du premier plan, ce qui équivaut à une synthèse de vue. (1,1) signifie changer l'éclairage et la posture du premier plan en même temps, ce qui équivaut à la synthèse d'images parallèles incontrôlable actuelle

Nous incorporons quatre tâches dans le même cadre et réalisons la fonction d'un quatre-en-un portail d'objets via des vecteurs indicateurs, qui peuvent téléporter un objet vers un emplacement spécifié dans la scène. Ce travail a été réalisé par l'Université Jiao Tong de Shanghai et Ant Group. Le code et le modèle seront bientôt open source

Veuillez cliquer sur le lien suivant pour consulter l'article : https://arxiv.org/abs/2308.10040
Portail de contrôle de scène : téléportation dobjets quatre en un, soumis et produit par des fourmis. Lien du modèle de code : https ://github.com/bcmi/ControlCom-Image-Composition

Dans l'image ci-dessous, nous montrons la fonction de composition d'image contrôlable

Dans la colonne de gauche, la posture de l'objet au premier plan est initialement adapté à l'image d'arrière-plan, l'utilisateur peut souhaiter conserver la pose des objets du premier plan. Les méthodes précédentes PbE [1] et ObjectStitch [2] apporteront des modifications inutiles et incontrôlables à la pose des objets au premier plan. La version (1,0) de notre méthode est capable de préserver la pose de l'objet de premier plan, en mélangeant parfaitement l'objet de premier plan dans l'image d'arrière-plan avec un éclairage harmonieux
Portail de contrôle de scène : téléportation dobjets quatre en un, soumis et produit par des fourmisDans la colonne de droite, l'éclairage de l'objet de premier plan doit être le même que l'éclairage de fond. Les méthodes précédentes peuvent entraîner des changements inattendus dans la couleur des objets au premier plan, tels que les véhicules et les vêtements. Notre méthode (version 0.1) est capable de conserver la couleur d'un objet de premier plan tout en ajustant simultanément sa pose pour qu'il se fonde naturellement dans l'image d'arrière-plan
Portail de contrôle de scène : téléportation dobjets quatre en un, soumis et produit par des fourmis

Ensuite, nous montrons plus de résultats de quatre versions de notre méthode (0,0), (1,0), (0,1), (1,1). On peut voir qu'en utilisant différents vecteurs indicateurs, notre méthode peut ajuster sélectivement certains attributs des objets de premier plan, contrôler efficacement l'effet de l'image composite et répondre aux différents besoins des utilisateurs.

Portail de contrôle de scène : téléportation dobjets quatre en un, soumis et produit par des fourmis

Ce que nous devons réécrire est : quelle est la structure du modèle qui peut réaliser les quatre fonctions ? Notre méthode adopte la structure de modèle suivante. L'entrée du modèle comprend des images d'arrière-plan avec des cadres de délimitation de premier plan et des images d'objets de premier plan. Les caractéristiques et les vecteurs indicateurs des objets de premier plan sont combinés dans le modèle de diffusion.

Nous ré-extrayons les caractéristiques globales de. les objets de premier plan et les caractéristiques locales, et fusionnent d'abord les caractéristiques globales, puis les caractéristiques locales. Au cours du processus de fusion locale, nous utilisons des cartes de caractéristiques de premier plan alignées pour la modulation des caractéristiques afin d'obtenir une meilleure préservation des détails. Dans le même temps, les vecteurs indicateurs sont utilisés à la fois dans la fusion globale et dans la fusion locale pour contrôler plus complètement les propriétés des objets de premier plan.

Nous utilisons l'algorithme de diffusion stable pré-entraîné pour entraîner le modèle basé sur 1,9 million d'images d'OpenImage. Afin d'entraîner quatre sous-tâches simultanément, nous avons conçu un ensemble de processus de traitement et d'amélioration des données. Pour plus de détails sur les données et la formation, veuillez consulter le document

Portail de contrôle de scène : téléportation dobjets quatre en un, soumis et produit par des fourmis

Nous avons testé sur l'ensemble de données COCOEE et un ensemble de données que nous avons construit nous-mêmes. Étant donné que les méthodes précédentes ne peuvent réaliser qu'une synthèse d'images incontrôlable, nous avons comparé la version (1,1) et les méthodes précédentes. Les résultats de la comparaison sont présentés dans la figure ci-dessous. PCTNet est une méthode d'harmonisation d'image qui peut préserver les détails des objets, mais ne peut pas ajuster la posture du premier plan, ni compléter les objets du premier plan. D'autres méthodes peuvent générer le même type d'objets, mais sont moins efficaces pour conserver les détails, comme le style des vêtements, la texture des tasses, la couleur des plumes d'oiseaux, etc.

Notre méthode est meilleure pour conserver les détails du premier plan Détails, compléter les objets de premier plan incomplets et ajuster l'éclairage, la posture et l'adaptation des objets de premier plan à l'arrière-plan

Portail de contrôle de scène : téléportation dobjets quatre en un, soumis et produit par des fourmis

Ce travail est la première tentative de synthèse d'images contrôlable. La tâche est très difficile et il y en a encore beaucoup. Cependant, les performances du modèle ne sont pas suffisamment stables et robustes. De plus, en plus de l'éclairage et de la posture, les propriétés des objets au premier plan peuvent être encore affinées. Comment obtenir une synthèse d'image contrôlable plus fine est une tâche plus difficile

Afin de conserver l'intention initiale inchangée, elle doit l'être. réécrit Le contenu est : Référence

Yang, Gu, Zhang, Zhang, Chen, Sun, Chen, Wen (2023). Modèles d’édition et de diffusion d’images basés sur des exemples. Dans CVPR

[2] Song Yongzhong, Zhang Zhi, Lin Zhilong, Cohen, SD, Price, BL, Zhang Jing, Jin Suying, Arriaga, DG 2023. ObjectStitch : synthèse d'objets génératifs. En CVPR

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:jiqizhixin.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal