Maison > Périphériques technologiques > IA > le corps du texte

L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours

王林
Libérer: 2024-07-17 01:56:08
original
334 Les gens l'ont consulté
C'est aussi une vidéo Tusheng, mais PaintsUndo a emprunté un chemin différent.

Lvmin Zhang, auteur de ControlNet, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture.

Le nouveau projet PaintsUndo a reçu 1,4k étoiles (toujours en hausse folle) peu de temps après son lancement.

ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star

Adresse du projet : https://github.com/lllyasviel/Paints-UNDO

Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, en commençant de la ligne Il y a des traces à suivre depuis l'ébauche jusqu'au produit fini.

ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star

Pendant le processus de dessin, les changements de lignes sont incroyables. Le résultat vidéo final est très similaire à l'image originale :

ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star

Jetons un coup d'œil à un processus de peinture complet. PaintsUndo utilise d'abord des lignes simples pour décrire le corps principal du personnage, puis dessine l'arrière-plan, applique la couleur et enfin l'affine pour ressembler à l'image originale. ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star

PaintsUndo ne se limite pas à un seul style d'image pour différents types d'images, il générera également des vidéos de processus de peinture correspondantes.

ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star

Le corgi portant une capuche regarde doucement au loin :

ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star

Les utilisateurs peuvent également saisir une seule image et produire plusieurs vidéos :

ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star

Cependant, PaintsUndo présente également des inconvénients, tels que des difficultés. avec des compositions complexes, et l'auteur dit que le projet est encore en train d'être peaufiné.

ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star

La raison pour laquelle PaintsUndo est si puissant est qu'il est pris en charge par une série de modèles qui prennent une image en entrée, puis génèrent une séquence de dessin de l'image. Le modèle reproduit une variété de comportements humains, y compris, mais sans s'y limiter, l'esquisse, l'encrage, l'ombrage, l'ombrage, la transformation, le retournement à gauche et à droite, les ajustements de courbe de couleur, la modification de la visibilité d'un calque et même la modification de l'idée globale pendant le processus de dessin. .

Le processus de déploiement local est très simple et peut être complété avec quelques lignes de code :

git clone https://github.com/lllyasviel/Paints-UNDO.gitcd Paints-UNDOconda create -n paints_undo python=3.10conda activate paints_undopip install xformerspip install -r requirements.txtpython gradio_app.py
Copier après la connexion

Introduction au modèle

L'auteur du projet a utilisé 24 Go de VRAM sur Nvidia 4090 et 3090TI pour les tests d'inférence. Les auteurs estiment qu’avec des optimisations extrêmes (y compris le déchargement de poids et le découpage de l’attention), l’exigence minimale théorique de VRAM est d’environ 10 à 12,5 Go. PaintsUndo s'attend à traiter une image en 5 à 10 minutes environ, selon les paramètres, ce qui donne généralement une vidéo de 25 secondes à une résolution de 320 x 512, 512 x 320, 384 x 448 ou 448 x 384.

Actuellement, le projet a publié deux modèles : le modèle à cadre unique paints_undo_single_frame et le modèle multi-cadre paints_undo_multi_frame.

Le modèle à image unique utilise l'architecture modifiée de SD1.5, prenant une image et une étape d'opération comme entrée et sortant une image. En supposant qu'une œuvre d'art nécessite généralement 1 000 opérations manuelles pour être créée (par exemple, un trait équivaut à une opération), la taille du pas d'opération est alors un nombre entier compris entre 0 et 999. Le chiffre 0 est l’œuvre finale terminée et le chiffre 999 est le premier trait peint sur une toile d’un blanc pur.

Le modèle multi-frame est basé sur la série de modèles VideoCrafter, mais n'utilise pas le lvdm original de Crafter, et tout le code de formation/inférence est entièrement implémenté à partir de zéro. Les auteurs du projet ont apporté de nombreuses modifications à la topologie du réseau neuronal et, après une formation approfondie, le réseau neuronal se comporte très différemment du Crafter original.

L'architecture globale du modèle multi-frame est similaire à Crafter, comprenant 5 composants : 3D-UNet, VAE, CLIP, CLIP-Vision et Image Projection.

Le modèle multi-images prend deux images en entrée et génère 16 images intermédiaires entre les deux images d'entrée. Les modèles multi-images ont des résultats plus cohérents que les modèles à image unique, mais sont également beaucoup plus lents, moins « créatifs » et limités à 16 images.

PaintsUndo utilise par défaut des modèles à image unique et multi-images. Tout d'abord, un modèle mono-image sera utilisé pour déduire environ 5 à 7 fois pour obtenir 5 à 7 « images clés », puis un modèle multi-images sera utilisé pour « interpoler » ces images clés, et enfin un modèle relativement long. la vidéo sera générée.

Lien de référence : https://lllyasviel.github.io/pages/paints_undo/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:jiqizhixin.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal