Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Vorstellung an den Autor: Song Yiren: Doktorand am ShowLab der National University of Singapore KI-Sicherheit.
Huang Shijie: Ein Masterstudent im zweiten Jahr an der National University of Singapore. Derzeit arbeitet er als Algorithmeningenieur-Praktikant bei Tiamat AI. Seine Hauptforschungsrichtung ist visuelle Generierung. Derzeit auf der Suche nach Doktorandenzulassungen für Herbst 2025.
Kürzlich hat lvmin das neueste Modell Paints-UNDO herausgebracht. Dieses KI-Generierungstool kann den gesamten Malprozess anhand von Bildern wiederherstellen, und die gesamte AIGC-Community ist schockiert. Demo von Paints-UNDO. Bereits vor einem Monat veröffentlichten NUS, SJTU, Tiamat und andere Institutionen gemeinsam eine Arbeit zu ähnlichen Aufgaben: ProcessPainter: Learn Painting Process from Sequence Data. Der technische Bericht zu Paints-UNDO wurde noch nicht veröffentlicht. Schauen wir uns an, wie ProcessPainter ihn implementiert!
Papiertitel: ProcessPainter: Malprozess aus Sequenzdaten lernenPapierlink: https://arxiv.org/pdf/2406.06062
-
Code-Link: https://github.com /nicolaus-huang/ProcessPainter
- Öffnen Sie ein Mallehrbuch und Sie sehen Schritt-für-Schritt-Anleitungen zum Malen. Im Zeitalter der generativen KI unterscheidet sich die Bilderzeugung durch den Entrauschungsprozess jedoch völlig vom Malprozess eines menschlichen Malers. Der KI-Malprozess kann nicht direkt für den Malunterricht verwendet werden.
Um dieses Problem zu lösen, ermöglicht ProcessPainter dem Diffusionsmodell zum ersten Mal, den Malprozess zu generieren, indem das zeitliche Modell anhand synthetischer Daten und Malvideos menschlicher Maler trainiert wird. Darüber hinaus sind die Malprozesse verschiedener Themen und Maler sehr unterschiedlich und ihre Stile sehr unterschiedlich. Allerdings gibt es derzeit nur sehr wenige Studien, die den Malprozess zum Gegenstand der Untersuchung gemacht haben. Basierend auf dem vorab trainierten Bewegungsmodell lernte der Autor des Artikels die Maltechniken des Künstlers, indem er Motion LoRA an einer kleinen Anzahl von Malsequenzen eines bestimmten Künstlers trainierte. Eingehende Interpretation der Kerntechnologie von ProcessPainter
1. Zeitlicher Aufmerksamkeitsmechanismus (zeitliche Aufmerksamkeit) Die Nutzung der zeitlichen Aufmerksamkeit zum Erlernen der Generierung eines Malprozesses ist die Kerninnovation von ProcessPainter. Der Schlüssel zum Generieren einer Gemäldesequenz besteht darin, dass die gesamte Sequenz der Veränderungsprozess desselben Bildes von abstrakt zu konkret ist und dass die vorherigen und späteren Bilder in Inhalt und Komposition konsistent und relevant sind. Um dieses Ziel zu erreichen, führten die Autoren das zeitliche Aufmerksamkeitsmodul von AnimateDiff in Unet ein. Dieses Modul befindet sich nach jeder Diffusionsschicht und absorbiert Informationen aus verschiedenen Frames über den Selbstaufmerksamkeitsmechanismus zwischen Frames, um einen reibungslosen Übergang und die Kontinuität der gesamten Sequenz sicherzustellen. Experimente haben gezeigt, dass diese Trainingsstrategie konsistente Maleffekte zwischen den Bildern aufrechterhalten kann. Der Unterschied zwischen der Malprozessgenerierung und der Videogenerierung besteht darin, dass die Änderungen vor und nach dem Malprozess drastischer sind. Das erste Bild ist ein Farbblock oder eine Strichzeichnung mit geringem Fertigstellungsgrad, während das letzte Bild ein vollständiges Gemälde ist , was eine Herausforderung für das Modelltraining darstellt. Zu diesem Zweck hat der Autor des Artikels das Timing-Modul zunächst anhand einer großen Anzahl synthetischer Datensätze vorab trainiert, sodass das Modell den schrittweisen Malprozess verschiedener SBR-Methoden (Stroke-based Rendering) erlernen kann Anschließend wurden die Malprozessdaten von Dutzenden von Künstlern verwendet, um das Painting LoRA-Modell zu trainieren. 2. Netzwerk zur Reproduktion von Kunstwerken . Daraus ergeben sich zwei Aufgaben: Rekonstruktion und Abschluss des Lackiervorgangs. Da beide Aufgaben über eine Bildeingabe verfügen, schlug der Autor des Artikels das Artwork Replication Network vor. Dieses Netzwerkdesign kann die Bildeingabe jedes Rahmens verarbeiten und die Generierung des Malprozesses flexibel steuern. Ähnlich wie bei früheren steuerbaren Generierungsmethoden stellen die Autoren des Artikels eine Variante von ControlNet vor, um bestimmte Frames in den generierten Ergebnissen so zu steuern, dass sie mit dem Referenzbild übereinstimmen. 3. Synthetischer Datensatz und Trainingsstrategie
Da reale Lackierprozessdaten schwer zu erhalten sind, reicht die Menge nicht aus, um ein groß angelegtes Training zu unterstützen. Zu diesem Zweck erstellten die Autoren des Papiers einen synthetischen Datensatz für das Vortraining.
Drei synthetische Datenmethoden werden speziell verwendet:
1. Verwenden Sie Learn to Paint, um eine Malsequenz aus durchscheinenden Bezier-Kurvenstrichen zu generieren. 2. Verwenden Sie den neuronalen Stil, um die Malsequenzen anzupassen im Ölgemäldestil und im chinesischen Malstil. 3. Die oben erwähnte SBR-Methode (Stroke Base Painting) besteht darin, ein Zielbild von grob nach fein anzupassen, was bedeutet, dass die bereits bemalten Teile überschrieben und geändert werden dürfen, wie z Chinesische Malerei und Skulptur, aufgrund des Materials Aufgrund der Einschränkungen können die fertigen Teile nicht wesentlich verändert werden und der Malprozess wird in separaten Bereichen abgeschlossen. Zu diesem Zweck verwendet der Autor des Artikels SAM- (Segment Anything) und Methoden zur Erkennung von Ausprägungen, um nacheinander Inhalte von der leeren Leinwand zu Unterregionen hinzuzufügen, zuerst die hervorstechenden Objekte zu zeichnen und sie dann nach und nach in den Hintergrund zu synthetisieren, um sie zu synthetisieren ein Video des Malvorgangs.
In der Trainingsphase trainierte der Autor des Artikels zunächst das Bewegungsmodell anhand des synthetischen Datensatzes vor, fror dann die Parameter des Bewegungsmodells ein und trainierte das Artwork Replication Network. Bei der Feinabstimmung des Mal-LoRA-Modells besteht der erste Schritt darin, die räumliche Aufmerksamkeit LoRA nur anhand der endgültigen Frames zu optimieren, um zu verhindern, dass der halbfertige Mal-Trainingssatz die Generierungsqualität des Modells beeinträchtigt.
Danach haben die Autoren des Artikels die Parameter der räumlichen Aufmerksamkeit LoRA eingefroren und die zeitliche Aufmerksamkeit LoRA anhand der vollständigen Malsequenz feinabgestimmt. Während der Inferenzphase, wenn ProcessPainter Malsequenzen aus Text generiert, verwendet ProcessPainter nicht das Grafikreplikationsnetzwerk. Bei der Rekonstruktion und Vervollständigung des Malprozesses verwendet ProcessPainter ein Grafikreplikationsnetzwerk, um rahmenspezifische Referenzeingaben zu empfangen. Um sicherzustellen, dass die Frames in der generierten Malsequenz so genau wie möglich mit dem Eingabebild übereinstimmen, verwendet ProcessPainter eine DDIM-Inversionstechnik, um das anfängliche Rauschen des Referenzbilds zu erhalten und das anfängliche Rauschen des spezifischen Frames in UNet zu ersetzen. ProcessPainter-Effektanzeige
Das auf dem synthetischen Datensatz trainierte ProcessPainter-Basismodell kann dabei Malsequenzen mit stilistischen Unterschieden generieren.
Durch individuelles Training von Motion Lora anhand der Malsequenzen einer kleinen Anzahl menschlicher Maler kann ProcessPainter den Malprozess und -stil eines bestimmten Künstlers erlernen.
Geben Sie ein Referenzbild an, und ProcessPainter kann das fertige Kunstwerk umgekehrt in Malschritte zerlegen oder aus einem halbfertigen Produkt ein vollständiges Gemälde ableiten.
Durch die Kombination dieser technischen Komponenten ist ProcessPainter nicht nur in der Lage, Malvorgänge aus Texten zu generieren, sondern auch Referenzbilder in Malsequenzen oder komplette unfertige Gemälde umzuwandeln. Dies bietet zweifellos neue Werkzeuge für die Kunsterziehung und eröffnet der AIGC-Community auch neue Wege. Vielleicht wird es in naher Zukunft auf Civitai verschiedene Lora geben, die den Malvorgang menschlicher Maler simulieren. Weitere Informationen finden Sie im Originalpapier oder auf der Github-Projekthomepage. Das obige ist der detaillierte Inhalt vonNur ein Bild kann den Malprozess „wiederherstellen'. Dieses Papier wurde früher als das beliebte Paints-UNDO realisiert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!