Die Hardwareanforderungen werden immer geringer und die Generierungsgeschwindigkeit wird immer schneller.
Stability AI ist als Pionier im Bereich Text-to-Image nicht nur führend im Trend, sondern erzielt auch weiterhin neue Durchbrüche bei der Modellqualität. Dieses Mal gelang ein Durchbruch im Kosten-Leistungs-Verhältnis.
Erst vor wenigen Tagen hat Stability AI einen weiteren neuen Schritt unternommen: Die Forschungsvorschauversion von Stable Cascade wurde veröffentlicht. Dieses Text-zu-Bild-Modell ist innovativ, indem es einen dreistufigen Ansatz einführt, der neue Maßstäbe für Qualität, Flexibilität, Feinabstimmung und Effizienz setzt, wobei der Schwerpunkt auf der weiteren Beseitigung von Hardware-Barrieren liegt. Darüber hinaus veröffentlicht Stability AI Trainings- und Inferenzcode, der eine weitere Anpassung des Modells und seiner Ausgabe ermöglicht. Das Modell steht für Rückschlüsse in der Diffusorbibliothek zur Verfügung. Dieses Modell wird unter einer nichtkommerziellen Lizenz veröffentlicht und erlaubt nur die nichtkommerzielle Nutzung.
extrem schnell generiert. Der X-Plattform-Benutzer @GozukaraFurkan gab an, dass nur etwa 9 GB GPU-Speicher erforderlich sind und die Geschwindigkeit dennoch gut beibehalten werden kann.
Die Genauigkeit bei der Generierung kürzerer Wörter/Phrasen ist relativ hoch, auch lange Sätze können mit einer gewissen Wahrscheinlichkeit vervollständigt werden (nur Englisch), Auch die Integration von Text und Bild ist sehr gut.
Benutzer @AIWarper hat verschiedene Tests zum Künstlerstil ausprobiert.
prompt: Nightmare on Elm Street. Referenzen zum Künstlerstil lauten wie folgt: Makoto Shinkai oben links, Tomer Hanuka unten links, Raphael Kirchner oben rechts, Takato Yamamoto unten rechts.Beim Generieren des Gesichts des Charakters können Sie jedoch feststellen, dass die Hautdetails des Charakters nicht sehr gut sind und es sich wie „Hautschleifen der zehnten Ebene“ anfühlt.
Bildquelle: https://twitter.com/vitor_dlucca/status /1757511080287355093Technische Details
Stable Cascade unterscheidet sich von der Stable Diffusion-Modellreihe. Es basiert auf drei verschiedenen Modelle Auf der Pipeline bestehend aus: Stufen A, B und C. Diese Architektur kann eine hierarchische Komprimierung von Bildern durchführen und einen stark komprimierten latenten Raum nutzen, um eine überlegene Ausgabe zu erzielen. Wie passen diese Teile zusammen?Die Latentbildgeneratorstufe (Stufe C) wandelt die Benutzereingabe in eine kompakte latente 24x24-Darstellung um, die dann zur Komprimierung des Bildes an die Latentdecoderstufe (Stufen A und B) weitergeleitet wird, was der Arbeit von VAE in ähnelt Stabile Diffusion, kann aber eine höhere Komprimierung erreichen.
Durch die Entkopplung der Textbedingungsgenerierung (Stufe C) von der Dekodierung zum hochauflösenden Pixelraum (Stufen A und B) können wir zusätzliche Schulungen oder Feinabstimmungen auf Stufe C durchführen, einschließlich ControlNets und LoRA, ähnlich dem Training im Vergleich zu Bei einem stabilen Diffusionsmodell können die Kosten bei gleicher Größe auf ein Sechzehntel reduziert werden. Die Stufen A und B können optional für zusätzliche Kontrolle feinabgestimmt werden, dies ähnelt jedoch der Feinabstimmung der VAE im Stable Diffusion-Modell. In den meisten Fällen sind die Vorteile dadurch minimal. Daher empfiehlt Stability AI für die meisten Zwecke offiziell, nur Phase C zu trainieren und den Originalzustand aus den Phasen A und B zu verwenden.
Phasen C und B werden zwei verschiedene Modelle veröffentlichen: 1B- und 3,6B-Parametermodelle für Phase C und 700M- und 1,5B-Parametermodelle für Phase B. Für Stufe C wird ein Modell mit 3,6B-Parametern empfohlen, da dieses Modell die höchste Ausgabequalität bietet. Für diejenigen, die jedoch die minimalen Hardwareanforderungen erfüllen möchten, ist eine Version mit 1B-Parametern verfügbar. Für Stufe B erzielen beide Versionen gute Ergebnisse, aber die Version mit 1,5B-Parametern schneidet hinsichtlich der Rekonstruktionsdetails besser ab. Dank des modularen Ansatzes von Stable Cascade können die erwarteten VRAM-Anforderungen für die Inferenz auf etwa 20 GB gehalten werden. Dies kann durch die Verwendung kleinerer Varianten weiter reduziert werden, allerdings mit der Einschränkung, dass dadurch auch die endgültige Ausgabequalität beeinträchtigt werden kann.
Vergleich
In der Bewertung schnitt Stable Cascade im Vergleich zu fast allen verglichenen Modellen am besten in Bezug auf schnelle Ausrichtung und ästhetische Qualität ab. Die folgende Abbildung zeigt die Ergebnisse der menschlichen Bewertung unter Verwendung einer Mischung aus Parti-Prompts und ästhetischen Prompts:
Stable Cascade (30 Inferenzschritte) vs. Playground v2 (50 Inferenzschritte), SDXL (50 Inferenzschritte) , SDXL Turbo (1 Argumentationsschritt) und Würstchen V2 (30 Argumentationsschritte) werden verglichen
Stable Cascade, SDXL, Playground V2 und SDXL Turbo zeigen den Fokus auf Effizienz durch ihre Architektur und höheres Kompressionspotential. Obwohl das größte Modell 1,4 Milliarden mehr Parameter als Stable Diffusion XL hat, weist es dennoch schnellere Inferenzzeiten auf.
Zusätzliche FunktionenZusätzlich zur standardmäßigen Text-zu-Bild-Generierung kann Stable Cascade auch Bildvariationen und Bild-zu-Bild-Generierung generieren. Die Bildvariante extrahiert Bildeinbettungen aus einem bestimmten Bild mithilfe von CLIP und gibt sie dann an das Modell zurück. Das Bild unten ist eine Beispielausgabe. Das Bild links zeigt das Originalbild, während die vier Bilder rechts davon die generierten Varianten darstellen.
Bild zu Bild durch einfaches Hinzufügen von Rauschen zu einem bestimmten Bild und anschließendes Generieren eines Bildes daraus als Ausgangspunkt. Unten sehen Sie ein Beispiel für das Hinzufügen von Rauschen zum Bild links und das anschließende Generieren von Rauschen.Code für Training, Feinabstimmung, ControlNet und LoRA
Mit der Veröffentlichung von Stable Cascade wird Stability AI den gesamten Code für Training, Feinabstimmung, ControlNet und LoRA veröffentlichen, um die Anforderungen für weitere Experimente zu reduzieren mit dieser Architektur. Hier sind einige ControlNets, die mit dem Modell veröffentlicht werden: Patch/Expand: Geben Sie ein Bild ein und fügen Sie eine Maske hinzu, die der Textaufforderung entspricht. Das Modell füllt dann den maskierten Teil des Bildes basierend auf den bereitgestellten Texthinweisen aus.
Canny Edge: Erzeugt neue Bilder basierend auf den Kanten vorhandener Bilder, die in das Modell eingespeist werden. Laut Stabilitäts-KI-Tests können auch Skizzen skaliert werden.型 Oben ist die Skizze des Eingabemodells und unten ist das Ausgabeergebnis2x Superauflösung: Das Hochskalieren der Auflösung eines Bildes auf das Zweifache seiner Seitenlänge, z. B. Konvertieren eines 1024 x 1024-Bildes in eine 2048 x 2048-Ausgabe, kann auch für die durch Stufe C erzeugte latente Darstellung verwendet werden.
Gefällt Ihnen dieses Preis-Leistungs-Verhältnis?
Das obige ist der detaillierte Inhalt vonDie Generierungsgeschwindigkeit ist doppelt so hoch wie bei SDXL und es kann auch auf einer 9-GB-GPU ausgeführt werden. Stable Cascade verbessert das Preis-Leistungs-Verhältnis.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!