Es gibt viele Methoden zur qualitativ hochwertigen Bildbearbeitung, aber es ist schwierig, die reale physische Welt genau wiederzugeben.
Dann probieren Sie „Edit the World“ aus.
Pictures
Peking University, Tiamat AI, Tiangong AI und Mila Labs schlugen EditWorld vor, das eine neue Bearbeitungsaufgabe einführte, die weltgesteuerte Bildbearbeitung. Es definiert und kategorisiert Anweisungen basierend auf verschiedenen Weltszenarien.
Bilder
Ein multimodaler Datensatz mit Weltanweisungen wird mit Unterstützung einer Reihe vorab trainierter Modelle wie GPT-3.5, Video-LLava und SDXL erstellt.
Ein diffusionsbasiertes Bildbearbeitungsmodell EditWorld wurde anhand dieses Datensatzes trainiert, und das Ergebnis war, dass die Leistung bei seiner neuen Aufgabe deutlich besser war als bei den bestehenden Bearbeitungsmethoden und SOTA erreichte.
Bestehende Methoden erreichen eine qualitativ hochwertige Bildbearbeitung auf verschiedene Weise, einschließlich, aber nicht beschränkt auf, Textsteuerung, Ziehvorgänge und Inpainting. Unter ihnen hat die Bearbeitungsmethode mithilfe von Anweisungen aufgrund ihrer Benutzerfreundlichkeit große Beachtung gefunden.
Obwohl Bildbearbeitungsmethoden in der Lage sind, qualitativ hochwertige Ergebnisse zu liefern, haben sie immer noch Schwierigkeiten, mit der Weltdynamik umzugehen, die echte visuelle Dynamik in der physischen Welt vermittelt.
Wie in Abbildung 1 gezeigt, können weder InstructPix2pix noch MagicBrush vernünftige Bearbeitungsergebnisse generieren.
Bilder
Um dieses Problem zu lösen, führte das Team eine neue Aufgabe namens „World-Instructed Image Editing“ ein, die es der Bildbearbeitung ermöglicht, die „Weltdynamik“ in der realen physischen Welt und in virtuellen Medien widerzuspiegeln.
Konkret definierten und klassifizierten sie verschiedene weltdynamische Anweisungen und erstellten auf der Grundlage dieser Anweisungen einen neuen multimodalen Trainingsdatensatz, der eine große Anzahl von Eingabe-Anweisungen-Ausgabe-Tripeln enthält.
Schließlich trainierte das Team ein textgesteuertes Diffusionsmodell mithilfe eines sorgfältig erstellten Datensatzes und schlug eine Zero-Shot-Bildmanipulationsstrategie vor, um eine weltinstruierte Bildbearbeitung zu erreichen.
Basierend auf Aufgabenszenarien in der realen Welt und in virtuellen Medien wird die weltangewandte Bildbearbeitung in 7 Kategorien unterteilt, jede Kategorie wird definiert und vorgestellt und ein Datenbeispiel wird bereitgestellt.
Bilder
Dann entwarf das Team zwei Zweige: Text-zu-Bild-Generierung und Video-Storyboard-Extraktion, um den Datensatz zu erhalten.
Der Bildzweig zur Textgenerierung soll den Reichtum der Datenszene bereichern. In diesem Zweig generiert das Team zunächst Textquadrupel (einschließlich Eingabebildbeschreibung, Anweisung, Ausgabebildbeschreibung und Schlüsselwörter) und verwendet dann Eingabe und Ausgabe: Die Beschreibung generiert ein dem Text entsprechendes Bild und verwendet die dem Schlüsselwort entsprechende Aufmerksamkeitskarte, um die Bearbeitungsposition zu lokalisieren und die Bearbeitungsmaske zu erhalten. Gleichzeitig wird die Konsistenz der Hauptmerkmale der beiden Bilder sichergestellt , führte das Team die Bildaufforderungsanpassungsmethode IP-Adapter ein. Schließlich verwendete das Team IP-Adapter und ControlNet, kombiniert mit der Canny Map des Ausgabebilds und der Bildaufforderungsfunktion des Eingabebilds, und verwendete Image Inpainting, um das anzupassen Ausgabebild, um effektivere Bearbeitungsdaten zu erhalten.
Bilder
Nachdem das Team den Bildzweig zur Textgenerierung verwendet hatte, um szenenreiche Daten zu erhalten, extrahierte das Team hochwertige Schlüsselbilder aus dem Video als Bearbeitungsdaten, um dem Datensatz echte Daten hinzuzufügen. Insbesondere extrahierte das Team zwei Frames mit starker Korrelation und großen strukturellen Unterschieden als Start- und Endframe aus dem Video-Storyboard und schnitt ein neues Storyboard aus, wobei es ein großes multimodales Modell verwendete, um das Storyboard zu ändern. Nach der Beschreibung erstellte das Team schließlich Verwendete die Start- und Endbilder als Eingabebild und Ausgabebild und verwendete die erhaltene Beschreibung als Anweisung, um so die erforderlichen Bearbeitungsdaten zu erhalten.
Um noch einen Schritt weiter zu gehen, nutzt das Team eine manuelle Nachprüfung der generierten Daten, um die Datenqualität weiter zu verbessern.
Das Team nutzte den Datensatz zur Feinabstimmung des InstructPix2Pix-Modells. Gleichzeitig schlug das Team eine Post-Edit-Strategie vor, um den Nichtbearbeitungsbereich zu schützen und eine präzisere Bearbeitung zu erreichen.
Bilder
Bilder
Abschließend zeigt sich, dass mit dem Ansatz des Teams eine weltanschauliche Bildbearbeitung sehr gut möglich ist.
Papier-Link:
https://www.php.cn/link/154d7da9e669c75ee317d46614381dd8
Code-Link:
https://www.php.cn/link/e6da32eef072f987685b6eddca072d4f
Das obige ist der detaillierte Inhalt vonDatensatz mit GPT-3.5 generieren! Neues SOTA für die Bildbearbeitung der Peking-Universität Tiangong und anderer Teams kann physische Weltszenen genau simulieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!