Une autre « version domestique de Sora » est lancée à l'échelle mondiale ! L'équipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes-IA-php.cn

Le cercle vidéo de l'IA « se bat ».

Luma et Runway de l'étranger, Kuaishou Keling, Byte Dream, Zhipu Qingying de Chine... chantez simplement et j'apparaîtrai. Sans exception, ils ciblent tous le légendaire Sora.

En fait, lorsqu'il s'agit des challengers mondiaux de Sora, Vidu de Shengshu Technology est indispensable.

Il y a trois mois déjà, alors que le domaine de la génération vidéo au pays et à l'étranger était encore « silencieux », Shengshu Technology a soudainement exposé la vidéo promotionnelle de son dernier modèle vidéo à grande échelle Vidu. L'effet a étonné de nombreux internautes. .

Aujourd'hui encore, Vidu est officiellement lancé. Aucune candidature n'est requise, tant que vous disposez d'une adresse e-mail, vous pouvez commencer. (Lien du site officiel de Vidu : www.vidu.studio)

Par exemple, Pikachu et Doraemon jouent à "Cheap Kill" :

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

Les protagonistes masculins et féminins de "Twilight" montrent leur affection :

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

Cela résout même le problème de l'incapacité de l'IA à écrire :

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

De plus, l'efficacité de génération de Vidu est également étonnante, atteignant la vitesse d'inférence la plus rapide de l'industrie, et il ne faut que 30 secondes pour générer un 4- deuxième séquence.

Ensuite, nous fournirons le dernier examen de première main pour voir à quel point ce "Sora domestique" est fort.

Test pratique : le langage de l'objectif est audacieux et l'image ne s'effondrera pas !

Cette fois, Vidu a montré ses compétences uniques.

Non seulement continue les avantages de la dynamique élevée, de la haute fidélité et de la cohérence élevée démontrés en avril de cette année, mais ajoute également de nouvelles fonctionnalités telles que le style d'animation, la génération d'écrans de texte et d'effets spéciaux et la cohérence des personnages.

Le thème principal est : je veux avoir les fonctions que les autres ont, et je veux aussi avoir les fonctions que les autres n'ont pas.

Oh non, il peut réellement reconnaître des caractères et des chiffres

À ce stade, Vidu a deux fonctions principales : la vidéo Wen Sheng et la vidéo Tu Sheng.

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

Fournit deux options de durée de 4s et 8s, avec une résolution jusqu'à 1080P. En termes de style, il existe deux options : réaliste et animé.

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

Regardez d'abord la vidéo de Tusheng.

Rendre l'histoire vivante est la façon de jouer la plus populaire du moment. Il s'agit de la célèbre œuvre "Portrait du peintre et de sa fille" de la peintre française Elisabeth Louise Verry.

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

Nous entrons le mot prompt : portrait du peintre et de sa fille, mère et fille s'embrassant étroitement.

La version haute définition générée est accrocheuse. Les personnages bougent largement et même leurs yeux changent, mais l'effet est assez naturel.

Essayez à nouveau "La Femme à la belette d'argent" de Léonard de Vinci.

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

Mot rapide : La femme qui tient le furet argenté sourit.

Dans la vidéo de 8 secondes, la femme et l'animal bougent largement, en particulier les mouvements de contact de la main de la femme, ainsi que les changements du corps et du visage, mais aucun d'entre eux n'affecte le naturel et la douceur de l'image.

Des mouvements amples et précis permettent de mieux exprimer l'intrigue de la vidéo et les émotions des personnages. Cependant, une fois que l’amplitude de mouvement devient plus grande, l’écran a tendance à s’effondrer. Par conséquent, certains modèles sacrifient l'amplitude pour assurer la douceur, mais Vidu résout mieux ce problème.

Il simule le mouvement du monde physique réel, ce qui est vraiment bien. Par exemple, recréez une scène similaire à « 2001 : L'Odyssée de l'espace » de Kubrick !

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes ^{Mot d'invite : sous la lentille longue, disparaissez lentement.长： mot de rappel : Sous la lentille longue, flottant, flottant lentement à la fin.}En plus des vidéos Tusheng, il y a aussi des vidéos Vincent.朵 Conseils : Deux fleurs s'épanouissent lentement sur le fond noir, montrant des pétales et des étamines délicates.

^{Tipps: Diesmal ist sie allein, sitzt allein auf der Schaukel tief in den Kirschblüten, trägt ein rosa Frühlingshemd, schwingt leicht, die Amplitude ist sehr klein, als würde sie auf einem Schaukelstuhl sitzen, mit leicht gesenktem Kopf, ein bisschen gelangweilt Er streckte langsam seine Füße aus und trat Stück für Stück gegen das Gras auf dem Boden. Die Kirschblüten fielen auf ihren Körper und Kopf, aber sie wischte sie nicht mit den Händen weg. Sie sammelten sich allmählich und vermischten sich mit der Farbe ihres Kleides. Aus der Ferne schien es, als bestünde ihr ganzer Körper aus Kirschblüten . .}

Vidu verfügt über ein gutes semantisches Verständnis und kann in der Eingabeaufforderung auch die Clip-Anforderungen mehrerer Aufnahmen gleichzeitig verstehen.

Zum Beispiel enthält das Bild eine Nahaufnahme eines Strandhauses und einen Fernblick auf das Meer, wenn die Kamera auf das Meer gerichtet ist. Der Kamerawechsel verleiht dem Bild eine deutliche erzählerische Wirkung.

^{Tipps: In einer antiken Hütte am Meer taucht die Sonne den Raum, die Kamera bewegt sich langsam zu einem Balkon mit Blick auf das ruhige Meer und schließlich friert die Kamera auf dem schwimmenden Meer, den Segelbooten und den reflektierenden Wolken ein.}

Vidu kann auch die Objektivsprache wie First-Person- und Zeitrafferfotografie genau verstehen und ausdrücken. Benutzer müssen nur die Aufforderungswörter verfeinern, um die Steuerbarkeit des Videos erheblich zu verbessern.

^{. .}

Vidu ist ein Videogenerator, der einige Vokabeln, wie zum Beispiel Zahlen, genau verstehen und generieren kann.块 Tipps: Eine Geburtstagstorte mit einer Kerze darauf. Die Kerze hat die Nummer „32“.

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

^{Ändere die Worte „Happy Birthday“ auf der Torte und sie hält.}

Aufforderungsworte:

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

Ein Stück Kuchen mit der Aufschrift „HAPPY BIRTHDAY“.

Anime-Stil ist einfach zu verwenden

Die meisten derzeit auf dem Markt erhältlichen KI-Videotools beschränken sich auf realistische Stile oder basieren auf realistischer Vorstellungskraft, während Vidu nicht nur realistische Stile unterstützt , unterstützt aber auch Anime-Stile.

Wir wählen das Animationsmodell aus und geben direkt das Eingabeaufforderungswort ein, um das Video im Animationsstil auszugeben.

Zum Beispiel Aufforderungswort: Anime-Stil, kleines Mädchen, das in der Küche steht und Gemüse hackt.

Um ehrlich zu sein, hat dieser Malstil den Geschmack von Hayao Miyazaki. Vidu verstand die prompten Worte und das kleine Mädchen schnitt Gemüse glatt, aber ihre Finger und Messer waren immer noch versehentlich deformiert.

Aufforderung: Im Anime-Stil tanzt ein kleines Mädchen mit Kopfhörern.

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

Vidu hat ziemlich viel Fantasie. Er hat den Hintergrund auf einen Park mit Springbrunnen gesetzt, was das Video auch weniger eintönig machte.

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes Natürlich können wir auch ein Anime-Referenzbild hochladen und das Aufforderungswort eingeben, damit sich die Anime-Charaktere im Bild bewegen können.

Zum Beispiel laden wir ein statisches Bild von Crayon Shin-chan hoch und geben dann das Aufforderungswort ein: Crayon Shin-chan lachte und hob die kleine Blume in seiner Hand. Wählen Sie für die Bildverwendung „Als Startbild verwenden“ aus.

Schauen wir uns den Effekt an:

Laden Sie ein Bild des süßen Pikachu hoch und geben Sie das Aufforderungswort „Pikachu springt glücklich auf“ ein. Wählen Sie für die Bildverwendung „Als Startbild verwenden“ aus.

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

Wenden Sie den Effekt weiter an:

Laden Sie das Bild von Ruffy aus „One Piece“ hoch und geben Sie ihm das Aufforderungswort: Der Junge fing plötzlich an zu weinen.

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

Der Effekt ist wie folgt:

Ich muss sagen, dass der Animationseffekt von Vidu ziemlich erstaunlich ist, während er die Konsistenz des Stils beibehält, aber die Stabilität und Glätte des Bildes deutlich verbessert, und das stimmt Keine Verformung oder Zusammenbruch. Oder „böse“ Szenen wie der sechsfingrige Wahnsinnige und die undeutlichen linken und rechten Beine.

Memes und Emoticons werden langweilig

Im Abschnitt „Tusheng-Video“ hat Vidu dieses Mal nicht nur das Hochladen des ersten Einzelbilds unterstützt, sondern auch eine neue Funktion eingeführt – die Zeichenkonsistenz ( Charakter zu Video).

Die sogenannte Charakterkonsistenz besteht darin, ein Charakterbild hochzuladen und dann den Charakter festzulegen, der in jeder Szene eine beliebige Aktion ausführen soll.

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

Nehmen wir Wu Jing als Beispiel.

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

^{Pünktliche Worte: In einem Raumschiff trägt Wu Jing einen Raumanzug und winkt in die Kamera.}

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

Wenn das Hochladen des ersten Einzelbilds zum Erstellen eines Videos mit Szenenkonsistenz geeignet ist, können Schauspieler mit der Rollenkonsistenzfunktion 72 Mal auf Knopfdruck von Science-Fiction-Rollen zu modernen Dramen wechseln.

Darüber hinaus können normale Benutzer mit der Funktion zur Zeichenkonsistenz Spaß daran haben, „Memes“ und „Emoticons“ zu erstellen!

Zum Beispiel haben die „unvergesslichen“ Nordamerikaner Justin Bieber und Selena ihre Beziehung erneuert:

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

In „Wulin Gaiden“ aßen Tong Xiangyu und Bai Zhantang Melonenkerne und plauderten über den Klatsch des Tongfu Inn :

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

Es gibt auch die Kaiserin in „Die Legende von Zhen Huan“, die traurig rief:

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

Solange Ihre Fantasie groß genug ist, kann Vidu den alten Mann in der U-Bahn sein Handy essen lassen, Ao Bai und Wei Xiaobao Bo spielen lassen und Oma Rong Ziwei Hähnchenkeulen füttern lassen.

Nur ein Wort, schnell!

Was ist für Benutzer während der Videoerstellung am nervigsten? Natürlich ist es ein kriechender Fortschrittsbalken.

Stellen Sie sich vor, Sie liegen vor dem Computer und warten zehn Minuten auf ein ein paar Sekunden langes Video. Egal wie ungeduldig eine Person ist, es wird schwierig sein, die Abwehr nicht zu durchbrechen.

Derzeit erzeugen die gängigen KI-Videotools auf dem Markt einen Videoclip von etwa 4 Sekunden, was normalerweise 1 bis 5 Minuten oder sogar länger dauert.

Zum Beispiel benötigt das neueste Gen-3-Tool von Runway 1 Minute, um die 5-Sekunden-Videogenerierung abzuschließen, Keling benötigt 2-3 Minuten und Vidu verkürzt diese Wartezeit auf 30 Sekunden, was schneller ist als das schnellste der Branche Gen-3 ist doppelt so schnell.

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

Basierend auf der komplett selbst entwickelten U-ViT-Architektur, sorgfältig ausgelegt für den kommerziellen Einsatz

Die unterste Schicht von „Vidu“ basiert auf der komplett selbst entwickelten U-ViT-Architektur, die vom Team im September 2022 vorgeschlagen wurde. Die vor Sora übernommene DiT-Architektur ist die weltweit erste Architektur, die Diffusion und Transformer integriert.

Une autre « version domestique de Sora » est lancée à léchelle mondiale ! Léquipe entrepreneuriale de Tsinghua Zhu Jun, la génération de vidéos ne prend que 30 secondes

^{Zwei Monate vor der Veröffentlichung des DiT-Papiers reichte Zhu Juns Team von der Tsinghua-Universität ein Papier ein – „All are Worth Words: A ViT Backbone for Diffusion Models“. In diesem Artikel wird eine Netzwerkarchitektur U-ViT vorgeschlagen, die Transformer verwendet, um das CNN-basierte U-Net zu ersetzen. Dies ist die wichtigste technische Grundlage von „Vidu“.}

Da keine mehrstufige Verarbeitung wie das Einfügen und Zusammenfügen von Zwischenbildern erforderlich ist, erfolgt die Konvertierung von Text in Video direkt und kontinuierlich. Die Arbeit von „Vidu“ fühlt sich eher in einer einzigen Aufnahme an und das Video wird von Anfang bis Ende kontinuierlich generiert Ende, ohne jede Spur von Rahmeneinfügung. Neben Innovationen in der zugrunde liegenden Architektur nutzt „Vidu“ auch die in der Vergangenheit von Shengshu Technology gesammelten technischen Erfahrungen und Fähigkeiten wieder.

Shengshu Technology sagte einmal, dass „Vidu“ von der Vereinheitlichung von Grafikaufgaben bis zur Integration von Videofunktionen als universelles visuelles Modell angesehen werden kann, das die Generierung vielfältigerer und längerer Videoinhalte unterstützen kann. Sie enthüllten auch, dass „Vidu“ immer noch iterative Verbesserungen beschleunigt. Mit Blick auf die Zukunft wird die flexible Modellarchitektur von „Vidu“ auch mit einem breiteren Spektrum multimodaler Fähigkeiten kompatibel sein.

Shengshu Technology wurde im März 2023 gegründet. Die Kernmitglieder stammen vom Forschungsinstitut für künstliche Intelligenz der Tsinghua-Universität und engagieren sich für die unabhängige Entwicklung des weltweit führenden steuerbaren multimodalen allgemeinen Großmodells. Seit seiner Gründung im Jahr 2023 wurde das Team von vielen bekannten Industrieinstitutionen wie Ant Group, Qiming Venture Partners, BV Baidu Ventures, Byte Jinqiu Fund usw. anerkannt und hat Finanzierungen in Höhe von Hunderten Millionen Yuan abgeschlossen. Es wird berichtet, dass Shenshu Technology derzeit das Unternehmerteam mit der höchsten Bewertung im multimodalen Großmodellbereich in China ist.

Der Chefwissenschaftler des Unternehmens ist Zhu Jun, stellvertretender Direktor des Tsinghua Artificial Intelligence Research Institute; CEO Tang Jiayustudierte die Abteilung für Informatik an der Tsinghua-Universität und ist Mitglied der THUNLP-Gruppe; Er ist Doktorand am Institut für Informatik der Tsinghua-Universität und Professor Zhu Jun. Er ist Mitglied des Forschungsteams und beschäftigt sich seit langem mit der Forschung auf dem Gebiet der Diffusionsmodelle. Er leitete die Fertigstellung von U-ViT und UniDiffuser.

Im Januar dieses Jahres startete PixWeaver, eine Plattform für visuelles kreatives Design im Besitz von Shengshu Technology, eine Funktion zur Generierung von Kurzvideos, die hochästhetische Kurzvideoinhalte von 4 Sekunden unterstützt. Nach der Einführung von Sora im Februar gründete Shengshu Technology ein internes Forschungsteam, um den Forschungs- und Entwicklungsfortschritt in der ursprünglichen Videorichtung zu beschleunigen. In weniger als einem Monat erreichte es intern eine 8-Sekunden-Videoerzeugung und durchbrach dann die 16 -zweite Videogeneration im April und erzielte Durchbrüche in allen Aspekten der Generationsqualität und -dauer.

Wenn die Modellveröffentlichung im April Vidus Führungsrolle bei der Videogenerierung demonstrierte, demonstriert das offiziell veröffentlichte Produkt dieses Mal Vidus sorgfältiges Layout bei der Kommerzialisierung. Shengshu Technology verwendet derzeit ein Zwei-Wege-Modell aus Modellschicht und Anwendungsschicht.

Erstellen Sie einerseits ein allgemeines großes Modell auf niedriger Ebene, das multimodale Funktionen wie Text, Bilder, Videos, 3D-Modelle usw. abdeckt, und stellen Sie Modelldienstfunktionen für die B-Seite bereit.

Andererseits werden vertikale Anwendungen für Szenarien wie die Bild- und Videogenerierung erstellt und in Form von Abonnements abgerechnet. Bei den Anwendungsrichtungen handelt es sich hauptsächlich um Szenarien zur Inhaltserstellung wie Spieleproduktion und Film- und Fernsehbeiträge -Produktion.

Verwandte Lektüre: