DragGAN a été open source pour 23 000 étoiles en trois jours, voici un autre DragDiffusion-IA-php.cn

DragGAN a été open source pour 23 000 étoiles en trois jours, voici un autre DragDiffusion

WBOY

Libérer： 2023-06-28 15:28:17

avant

1330 Les gens l'ont consulté

Dans le monde magique d'AIGC, on peut changer et combiner les images que l'on veut en "glissant" sur l'image. Par exemple, laissez un lion tourner la tête et ouvrir la gueule :

DragGAN a été open source pour 23 000 étoiles en trois jours, voici un autre DragDiffusion

La recherche pour obtenir cet effet vient de L'article "Drag", dirigé par l'auteur chinois Your GAN, a été publié le mois dernier et a été accepté par la conférence SIGGRAPH 2023.

Plus d'un mois s'est écoulé et l'équipe de recherche a récemment publié le code officiel. En seulement trois jours, le nombre d'étoiles a dépassé les 23 000, ce qui montre sa popularité.

DragGAN a été open source pour 23 000 étoiles en trois jours, voici un autre DragDiffusion Photo

Adresse GitHub : https://github.com/XingangPan/ DragGAN

Par coïncidence, une autre recherche similaire aujourd'hui - DragDiffusion est apparue aux yeux des gens. Le précédent DragGAN implémentait une édition d'image interactive basée sur des points et obtenait des effets d'édition de précision au niveau des pixels. Cependant, DragGAN présente également des inconvénients. Il est basé sur un réseau contradictoire génératif (GAN), et sa polyvalence est limitée par la capacité du modèle GAN pré-entraîné.

Dans une nouvelle recherche, plusieurs chercheurs de l'Université nationale de Singapour et ByteDance ont étendu ce type de cadre d'édition à un modèle de diffusion, en proposant DragDiffusion. Ils exploitent des modèles de diffusion pré-entraînés à grande échelle pour améliorer considérablement l’applicabilité de l’édition interactive basée sur des points dans des scénarios réels.

Bien que la plupart des méthodes actuelles d'édition d'images basées sur la diffusion conviennent à l'intégration de texte, DragDiffusion optimise la représentation latente de diffusion pour obtenir un contrôle spatial précis.

DragGAN a été open source pour 23 000 étoiles en trois jours, voici un autre DragDiffusion Photo

Adresse papier : https : //arxiv.org/pdf/2306.14435.pdf
Adresse du projet : https://yujun-shi.github.io/ projects/dragdiffusion.html

Les chercheurs ont déclaré que le modèle de diffusion génère des images de manière itérative L'optimisation "en une étape" de la représentation latente de diffusion suffit à générer des résultats cohérents, permettant à DragDiffusion de réaliser efficacement un montage de haute qualité.

Ils ont mené des expériences approfondies dans divers scénarios difficiles (tels que plusieurs objets, différentes catégories d'objets) pour vérifier la plasticité et la polyvalence de DragDiffusion. Le code correspondant sera également publié bientôt,

Voyons comment fonctionne DragDiffusion.

Tout d'abord, nous voulons relever la tête du chaton dans l'image ci-dessous. Il suffit à l'utilisateur de faire glisser le point rouge vers le point bleu.

DragGAN a été open source pour 23 000 étoiles en trois jours, voici un autre DragDiffusion

Ensuite, nous voulons rendre la montagne un peu plus haute, pas de problème, faites glisser le rouge Les points clés sont ça suffit :

DragGAN a été open source pour 23 000 étoiles en trois jours, voici un autre DragDiffusion Picture

DragGAN a été open source pour 23 000 étoiles en trois jours, voici un autre DragDiffusion J'ai toujours envie de tourner la sculpture tête, il suffit de la faire glisser :

DragGAN a été open source pour 23 000 étoiles en trois jours, voici un autre DragDiffusion Picture

#🎜🎜 # DragGAN a été open source pour 23 000 étoiles en trois jours, voici un autre DragDiffusion Laisse les fleurs sur le rivage fleurit plus largement :

DragGAN a été open source pour 23 000 étoiles en trois jours, voici un autre DragDiffusion

Introduction à la méthode#🎜 🎜##🎜 🎜# Le DRAGDIFFUSION proposé dans cet article vise à optimiser des variables latentes de diffusion spécifiques pour réaliser une édition d'image interactive basée sur des points.

Pour atteindre cet objectif, la recherche a d'abord affiné LoRA sur la base du modèle de diffusion pour reconstruire l'image saisie par l'utilisateur. Cela garantit que les styles des images d’entrée et de sortie restent cohérents.

Ensuite, les chercheurs ont utilisé l'inversion DDIM (qui est une méthode pour explorer la transformation inverse et le fonctionnement de l'espace latent du modèle de diffusion) sur l'image d'entrée pour obtenir la variable latente de diffusion à une étape spécifique.

Pendant le processus d'édition, le chercheur a utilisé à plusieurs reprises la supervision de mouvement et le suivi de points pour optimiser la variable latente de diffusion précédemment obtenue à l'étape t, « faisant ainsi glisser » le contenu du point de traitement vers l'emplacement cible. Le processus d'édition applique également un terme de régularisation pour garantir que les zones non masquées de l'image restent inchangées.

Enfin, utilisez DDIM pour débruiter les variables latentes optimisées à l'étape t afin d'obtenir les résultats édités. L'aperçu général est le suivant :

DragGAN a été open source pour 23 000 étoiles en trois jours, voici un autre DragDiffusion Images

Résultats expérimentaux

À partir d'une image d'entrée, DRAGDIFFUSION "fait glisser" le contenu des points clés (rouge) vers le point cible correspondant (couleur bleue) . Par exemple, sur la photo (1), retournez la tête du chiot, sur la photo (7), fermez la gueule du tigre, etc.

DragGAN a été open source pour 23 000 étoiles en trois jours, voici un autre DragDiffusion Photos

Voici d'autres exemples de démos. Comme le montre la figure (4), agrandissez le sommet de la montagne, la figure (7) agrandissez la pointe du stylo, etc.

DragGAN a été open source pour 23 000 étoiles en trois jours, voici un autre DragDiffusion Photos