La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Présentation de l'auteur : Song Yiren : doctorant à ShowLab, Université nationale de Singapour Ses principaux axes de recherche incluent la génération d'images et de vidéos, et Sécurité de l'IA.
Huang Shijie : Étudiant en deuxième année de master à l'Université nationale de Singapour, il travaille actuellement en tant qu'ingénieur stagiaire en algorithme chez Tiamat AI. Son principal axe de recherche est la génération visuelle. Actuellement à la recherche d'admissions au doctorat pour l'automne 2025.
Récemment, lvmin a introduit le dernier modèle Paints-UNDO. Cet outil de génération d'IA peut restaurer l'intégralité du processus de peinture à partir d'images, et toute la communauté AIGC est choquée. Démo de peintures-UNDO. Il y a déjà 1 mois, NUS, SJTU, Tiamat et d'autres institutions ont publié conjointement un ouvrage sur des tâches similaires : ProcessPainter : Learn Painting Process from Sequence Data. Le rapport technique Paints-UNDO n’a pas encore été publié, voyons comment ProcessPainter l’implémente !
Titre de l'article : ProcessPainter : Apprendre le processus de peinture à partir de données de séquenceLien de l'article : https://arxiv.org/pdf/2406.06062
-
Lien du code : https://github.com /nicolaus-huang/ProcessPainter
- Ouvrez n'importe quel livre d'enseignement de la peinture et vous verrez des instructions étape par étape pour la peinture. Cependant, à l'ère de l'IA générative, la génération d'images via le processus de débruitage est complètement différente du processus de peinture d'un peintre humain. Le processus de peinture de l'IA ne peut pas être directement utilisé pour l'enseignement de la peinture.
Pour résoudre ce problème, ProcessPainter permet au modèle de diffusion de générer pour la première fois le processus de peinture en entraînant le modèle temporel sur des données synthétiques et des vidéos de peinture de peintres humains. De plus, les procédés de peinture des différents thèmes et peintres varient considérablement et leurs styles sont très différents. Cependant, il existe actuellement très peu d’études qui ont pris le processus de peinture comme objet d’étude. Sur la base du Motion Model pré-entraîné, l'auteur de l'article a appris les techniques de peinture de l'artiste en entraînant Motion LoRA sur un petit nombre de séquences de peinture d'un artiste spécifique. Interprétation approfondie de la technologie de base de ProcessPainter
1. Mécanisme d'attention temporelle (Attention temporelle) Utiliser l'attention temporelle pour apprendre à générer un processus de peinture est l'innovation fondamentale de ProcessPainter. La clé pour générer une séquence de peinture est que la séquence entière est le processus de changement de la même image de l'abstrait au concret, et que les images précédentes et ultérieures sont cohérentes et pertinentes dans leur contenu et leur composition. Pour atteindre cet objectif, les auteurs ont introduit le module d'attention temporelle d'AnimateDiff dans Unet. Ce module est situé après chaque couche de diffusion et absorbe les informations de différentes images via le mécanisme d'auto-attention inter-images pour assurer une transition en douceur et une continuité de l'ensemble de la séquence. Des expériences ont prouvé que cette stratégie d'entraînement peut maintenir des effets de peinture cohérents entre les images. La différence entre les tâches de génération du processus de peinture et de génération vidéo réside dans le fait que les changements avant et après le processus de peinture sont plus drastiques. La première image est un bloc de couleur ou un dessin au trait avec un faible degré d'achèvement, tandis que la dernière image est une peinture complète. , ce qui pose un défi pour modéliser la formation. À cette fin, l'auteur de l'article a d'abord pré-entraîné le module de synchronisation sur un grand nombre d'ensembles de données synthétiques, permettant au modèle d'apprendre le processus de peinture étape par étape de diverses méthodes SBR (Stroke-based Rendering), et a ensuite utilisé les données du processus de peinture de dizaines d'artistes pour former le modèle Painting LoRA. 2. Réseau de réplication d'œuvres d'art Dans la pratique de la peinture, nous préférons savoir comment une œuvre est peinte et comment continuer à l'affiner à partir d'une peinture semi-finie pour obtenir l'effet de produit fini attendu. . Cela conduit à deux tâches : la reconstruction et l'achèvement du processus de peinture. Étant donné que les deux tâches nécessitent une entrée d’image, l’auteur de l’article a proposé le réseau de réplication des œuvres d’art. Cette conception de réseau peut gérer la saisie d'image de n'importe quelle image et contrôler de manière flexible la génération du processus de peinture. Semblable aux méthodes de génération contrôlables précédentes, les auteurs de l'article introduisent une variante de ControlNet pour contrôler des images spécifiques dans les résultats générés afin qu'elles soient cohérentes avec l'image de référence. 3. Ensemble de données synthétiques et stratégie de formation Étant donné que les données réelles sur le processus de peinture sont difficiles à obtenir, la quantité n'est pas suffisante pour soutenir une formation à grande échelle. À cette fin, les auteurs de l’article ont construit un ensemble de données synthétiques pour la pré-formation. Trois méthodes de données synthétiques sont spécifiquement utilisées : 1. Utilisez Apprendre à peindre pour générer une séquence de peinture de traits de courbe de Bézier translucides. 2. Utilisez le style Neural pour personnaliser les traits de peinture qui génèrent des séquences de peinture ; dans le style de peinture à l'huile et de style de peinture chinoise. 3. La méthode SBR (Stroke base painting) mentionnée ci-dessus consiste à ajuster une image cible de grossière à fine, ce qui signifie que les parties déjà peintes peuvent être écrasées et modifiées. Cependant, de nombreux types de peinture, tels que. Peinture et sculpture chinoises, en raison du matériau En raison des restrictions, les pièces terminées ne peuvent pas être modifiées de manière significative et le processus de peinture est terminé dans des zones séparées. À cette fin, l'auteur de l'article utilise SAM (segment any) et des méthodes de détection de saillance pour ajouter le contenu du canevas vierge aux sous-régions une par une, dessiner d'abord les objets saillants, puis les diffuser progressivement en arrière-plan pour les synthétiser. une vidéo du processus de peinture. Dans la phase de formation, l'auteur de l'article a d'abord pré-entraîné le modèle de mouvement sur l'ensemble de données synthétiques, puis a gelé les paramètres du modèle de mouvement et formé le réseau de réplication des œuvres d'art. Lors du réglage fin du modèle de peinture LoRA, la première étape consiste à affiner l'attention spatiale LoRA en utilisant uniquement les images finales pour éviter que l'ensemble d'entraînement à la peinture à moitié terminé ne nuise à la qualité de génération du modèle. Après cela, les auteurs de l'article ont gelé les paramètres de l'attention spatiale LoRA et ont affiné l'attention temporelle LoRA en utilisant la séquence de peinture complète. Pendant la phase d'inférence, lors de la génération de séquences de peinture à partir de texte, ProcessPainter n'utilise pas le réseau de réplication d'œuvres d'art. Dans la tâche de reconstruction et d'achèvement du processus de peinture, ProcessPainter utilise un réseau de réplication d'œuvres d'art pour recevoir une entrée de référence spécifique à l'image. Pour garantir que les images de la séquence de peinture générée correspondent le plus possible à l'image d'entrée, ProcessPainter utilise une technique d'inversion DDIM pour obtenir le bruit initial de l'image de référence et remplacer le bruit initial de l'image spécifique dans UNet. Affichage de l'effet ProcessPainterLe modèle de base ProcessPainter formé sur l'ensemble de données synthétiques peut générer des séquences de peinture avec des différences stylistiques dans le processus.
En formant Motion Lora individuellement sur les séquences de peinture d'un petit nombre de peintres humains, ProcessPainter peut apprendre le processus de peinture et le style d'un artiste spécifique.
Spécifiez une image de référence et ProcessPainter peut déconstruire à l'envers l'œuvre d'art terminée en étapes de peinture, ou déduire une peinture complète à partir d'un produit semi-fini.
La combinaison de ces composants techniques permet à ProcessPainter non seulement de générer des processus de peinture à partir de texte, mais également de convertir des images de référence en séquences de peinture ou en peintures inachevées complètes. Cela fournit sans aucun doute de nouveaux outils pour l’éducation artistique et ouvre également une nouvelle voie pour la communauté AIGC. Peut-être que dans un avenir proche, il y aura diverses Lora sur Civitai qui simuleront le processus de peinture des peintres humains. Pour plus de détails, veuillez lire l'article original ou visiter la page d'accueil du projet Github. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!