Zhipu AI hat das große Modell, das es selbst entwickelt hat, als Open Source bereitgestellt.
Der Bereich der inländischen Videogenerierung erfreut sich immer größerer Beliebtheit. Gerade hat Zhipu AI angekündigt, dass es CogVideoX, ein Videogenerierungsmodell mit demselben Ursprung wie „Qingying“, als Open-Source-Lösung veröffentlichen wird. Verdienen Sie 4.000 Sterne in nur wenigen Stunden.
- Code-Repository: https://github.com/THUDM/CogVideo
- Modell-Download: https://huggingface.co/THUDM/CogVideoX-2b
- Technischer Bericht: https: //github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
Es wurde offiziell bekannt gegeben, dass Qingying ab sofort die Qingyan-App starten wird und alle Benutzer sie umfassend erleben können. Freunde, die es ausprobieren möchten, können zu „Zhipu Qingyan“ gehen, um die Fähigkeit von „Qingying“ zum Generieren von Videos zu erleben.
Die Entstehung von „Qingying“ wird als das erste Sora gefeiert, das für jedermann in China verfügbar ist. Sechs Tage nach der Veröffentlichung überstieg die Zahl der von „Qingying“ generierten Videos eine Million.
- PC-Zugriffslink: https://chatglm.cn/
- Mobiler Zugriffslink: https://chatglm.cn/download?fr=web_home
Warum ist das Zhipu AI Open-Source-Modell so beliebt? Sie müssen wissen, dass die Videogenerierungstechnologie zwar allmählich ausgereift ist, es jedoch immer noch kein Open-Source-Videogenerierungsmodell gibt, das die Anforderungen kommerzieller Anwendungen erfüllen kann. Die bekannten Sora, Gen-3 usw. sind alle Closed Source. Die Open Source von CogVideoX ist wie OpenAI die Open Source des Modells hinter Sora, das für die Mehrheit der Forscher von großer Bedeutung ist.
Das Open-Source-Modell von CogVideoX umfasst mehrere Modelle unterschiedlicher Größe. Derzeit benötigt das Open-Source-Modell CogVideoX-2B von Zhipu nur 18 GB Videospeicher für die Inferenz mit FP-16-Genauigkeit und nur 40 GB Videospeicher für die Feinabstimmung dass eine einzelne A 4090-Grafikkarte Inferenzen durchführen kann, während eine einzelne A6000-Grafikkarte die Feinabstimmung durchführen kann.
Das Eingabeaufforderungswortlimit von CogVideoX-2B beträgt 226 Token, die Videolänge beträgt 6 Sekunden, die Bildrate beträgt 8 Bilder/Sekunde und die Videoauflösung beträgt 720*480. Zhipu AI hat einen großen Raum für die Verbesserung der Videoqualität reserviert, und wir freuen uns auf die Open-Source-Beiträge der Entwickler, um Wortoptimierung, Videolänge, Bildrate, Auflösung, Szenenfeinabstimmung und die Entwicklung verschiedener Funktionen rund um Video voranzutreiben .
Modelle mit stärkerer Leistung und größeren Parametern sind auf dem Weg, also bleiben Sie dran und freuen Sie sich darauf.
Videodaten enthalten räumliche und zeitliche Informationen, sodass ihr Datenvolumen und ihr Rechenaufwand die von Bilddaten bei weitem übersteigen. Um dieser Herausforderung zu begegnen, schlug Zhipu eine Videokomprimierungsmethode vor, die auf dem 3D-Variations-Autoencoder (3D VAE) basiert. 3D VAE komprimiert gleichzeitig die räumlichen und zeitlichen Dimensionen von Videos durch dreidimensionale Faltung und erzielt so höhere Komprimierungsraten und eine bessere Rekonstruktionsqualität.
Die Modellstruktur umfasst einen Encoder, einen Decoder und einen Latentraum-Regularisierer, und die Komprimierung wird durch vier Stufen des Downsampling und Upsampling erreicht. Die zeitliche kausale Faltung stellt die Kausalität der Informationen sicher und reduziert den Kommunikationsaufwand. Zhipu nutzt kontextbezogene Parallelitätstechnologie, um sich an die Videoverarbeitung in großem Maßstab anzupassen. Im Experiment stellte Zhipu AI fest, dass die Codierung mit großer Auflösung leicht zu verallgemeinern ist, die Erhöhung der Anzahl der Frames jedoch eine größere Herausforderung darstellt. Daher trainiert Zhipu das Modell in zwei Phasen: Zuerst wird auf niedrigere Bildraten und Mini-Batches trainiert, und dann erfolgt die Feinabstimmung auf höhere Bildraten durch kontextuelle Parallelität. Die Trainingsverlustfunktion kombiniert L2-Verlust, LPIPS-Wahrnehmungsverlust und GAN-Verlust für den 3D-Diskriminator. Wisdom Spectrum AI verwendet den Encoder von VAE, um das Video in einen latenten Raum zu komprimieren, teilt den latenten Raum dann in Blöcke auf und erweitert ihn in lange Sequenzeinbettungen z_vision. Gleichzeitig verwendet Zhipu AI T5, um Texteingaben in Text zu kodieren, indem es z_text einbettet und dann z_text und z_vision entlang der Sequenzdimension zusammenfügt. Die gespleißten Einbettungen werden zur Verarbeitung in einen Stapel professioneller Transformer-Blöcke eingespeist. Schließlich werden die Einbettungen zurückgenäht, um die ursprüngliche Form des latenten Raums wiederherzustellen, und mithilfe von VAE dekodiert, um das Video zu rekonstruieren.
Das Training des Videogenerierungsmodells erfordert das Screening hochwertiger Videodaten, um die Dynamik in der realen Welt zu erlernen. Das Video kann aufgrund von Bearbeitungs- oder Drehproblemen durch Menschen ungenau sein. Wisdom AI hat Negativ-Tags entwickelt, um minderwertige Videos wie überbearbeitete, abgehackte Bewegungen, minderwertige, vorlesungsartige, textdominierte Videos und Videos mit Bildschirmrauschen zu identifizieren und auszuschließen. Mithilfe von Video-Lama trainierter Filter kommentierte und filterte Zhipu AI 20.000 Videodatenpunkte. Gleichzeitig werden optische Fluss- und Ästhetikwerte berechnet und der Schwellenwert dynamisch angepasst, um die Qualität des generierten Videos sicherzustellen. Videodaten enthalten normalerweise keine Textbeschreibungen und müssen für das Text-zu-Video-Modelltraining in Textbeschreibungen umgewandelt werden. Vorhandene Videountertiteldatensätze verfügen über kurze Untertitel und können den Videoinhalt nicht vollständig beschreiben. Zhipu AI schlägt eine Pipeline zur Generierung von Videountertiteln aus Bilduntertiteln vor und optimiert das End-to-End-Videountertitelmodell, um dichtere Untertitel zu erhalten. Dieser Ansatz generiert kurze Untertitel mithilfe des Panda70M-Modells, dichte Bilduntertitel mithilfe des CogView3-Modells und fasst dann mithilfe des GPT-4-Modells zusammen, um das endgültige kurze Video zu generieren. Zhipu AI hat außerdem ein CogVLM2-Caption-Modell basierend auf CogVLM2-Video und Llama 3 verfeinert, das mithilfe dichter Untertiteldaten trainiert wurde, um den Prozess der Video-Untertitelgenerierung zu beschleunigen.
Um die Qualität der Text-zu-Video-Generierung zu bewerten, verwendet Zhipu AI mehrere Indikatoren in VBench, wie z. B. menschliche Aktionen, Szenen, Dynamik usw. Zhipu AI verwendet außerdem zwei zusätzliche Videobewertungstools: Dynamic Quality in Devil und GPT4o-MT Score in Chrono-Magic, die sich auf die dynamischen Eigenschaften von Videos konzentrieren. Wie in der Tabelle unten gezeigt. Zhipu AI hat die Wirksamkeit des Skalierungsgesetzes bei der Videogenerierung bestätigt. In Zukunft wird es den Daten- und Modellmaßstab weiter vergrößern und gleichzeitig neue Modellarchitekturen mit bahnbrechenderen Innovationen und effizienterer Komprimierung erforschen , eine umfassendere Mischung aus Text- und Videoinhalten. Abschließend schauen wir uns noch die Wirkung von „Clear Shadow“ an. Tipps: „Ein zartes Holzspielzeugboot mit wunderschön geschnitzten Masten und Segeln gleitet sanft über einen weichen blauen Teppich, der Meereswellen nachahmt. Der Rumpf ist in sattem Braun gestrichen und hat kleine Fenster. Der Teppich ist weich und strukturiert, Es bietet die perfekte Kulisse, um dem riesigen Ozean nachempfunden zu sein. Es gibt auch verschiedene Spielzeuge und Kinderartikel, die eine spielerische Umgebung mit seinen Spielzeugbooten suggerieren. Die Reise symbolisiert endlose Abenteuer in einem skurrilen Innenraum Umgebung. „Tipps: „Die Kamera folgt einem alten weißen SUV mit schwarzem Dachträger, der einen steilen Hügel hinauf und über eine von Pinien umgebene unbefestigte Straße rast, während die Sonne darauf schien.“ Der SUV raste über die unbefestigte Straße und warf ein warmes Licht auf die Szene, und es waren keine anderen Autos oder Fahrzeuge in Sicht. Es gab Flecken auf der Straße Von hinten betrachtet folgt das Auto den Kurven mit Leichtigkeit und vermittelt den Eindruck, dass es über raues Gelände fährt, umgeben von steilen Hügeln und Bergen, mit klarem, blauem Himmel darüber. Eine verschneite Waldlandschaft mit einer unbefestigten Straße, die von schneebedeckten Bäumen gesäumt ist. Die Sonne scheint hell und schafft eine helle und friedliche Atmosphäre Im Video sind Menschen oder Tiere zu sehen, die sich auf die Schönheit des verschneiten Waldes und die Ruhe der Straße konzentrieren. von Grill auf Grill mit leichtem Brand und leichtem Rauch.“Das obige ist der detaillierte Inhalt vonDie Open-Source-Version von Sora ist ein Volltreffer: 4K Star ist verfügbar, 4090 läuft auf einer einzigen Karte und A6000 lässt sich feintunen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!