Die Kuaishou-Version von Sora „Ke Ling' steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren-KI-php.cn

Was? Wird Zootopia durch heimische KI in die Realität umgesetzt?

Die Kuaishou-Version von Sora „Ke Ling steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren

Zusammen mit dem Video wird ein neues groß angelegtes inländisches Videogenerationsmodell namens „Keling“ vorgestellt.

Sora geht einen ähnlichen technischen Weg und kombiniert eine Reihe selbst entwickelter technologischer Innovationen, um Videos zu produzieren, die nicht nur große und vernünftige Bewegungen aufweisen, sondern auch die Eigenschaften der physischen Welt simulieren und über starke konzeptionelle Kombinationsfähigkeiten und Vorstellungskraft verfügen.

Den Daten zufolge unterstützt Keling die Erstellung ultralanger Videos bis zu 2 Minuten30fps, mit Auflösungen bis zu 1080p und unterstützt mehrere Seitenverhältnisse.

Die Kuaishou-Version von Sora „Ke Ling steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren

Ein weiterer wichtiger Punkt ist, dass es sich bei Keling nicht um eine von einem Labor veröffentlichte Demo oder Video-Ergebnisdemonstration handelt, sondern um eine Anwendung auf Produktebene, die von Kuaishou, einem führenden Anbieter im Bereich Kurzvideos, ins Leben gerufen wurde.

Und die Hauptsache ist, pragmatisch zu sein, keine Blankoschecks auszustellen, sofort auf den Markt zu kommen, das große Ke Ling-Modell hat den Einladungstest in der Kuaiying-APP offiziell eröffnet.

Lassen Sie mich Ihnen ohne weitere Umschweife Ke Lings Meisterwerk zeigen~

Er versteht die Gesetze der Welt besser und kann komplexe Bewegungen präzise darstellen

Ich glaube, dass jeder durch das Eröffnungsvideo bereits Ke Lings reiche Fantasie gespürt hat.

Keling ist nicht nur fantasievoll und uneingeschränkt, sondern folgt bei der Darstellung von Bewegungen auch den realen Bewegungsgesetzen. Komplexe und großräumige Raum-Zeit-Bewegungen können ebenfalls genau dargestellt werden.

Zum Beispiel hat dieser Tiger, der mit hoher Geschwindigkeit auf der Straße läuft, nicht nur ein kohärentes Bild, vernünftige Änderungen im Kamerawinkel und koordinierte Bewegungen der Gliedmaßen des Tigers, sondern zeigt auch deutlich das Zittern des Rumpfes beim Laufen.

Die Kuaishou-Version von Sora „Ke Ling steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren

Es gibt auch eine Szene, in der Astronauten auf dem Mond laufen. Die Bewegungen sind sanft, der Gang und die Schattenbewegung sind vernünftig und angemessen, es ist erstaunlich.

Die Kuaishou-Version von Sora „Ke Ling steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren

Neben der Bewegung kann das Keling-Großmodell auch die Eigenschaften der realen physischen Welt simulieren, und die erzeugten Videos entsprechen eher den Gesetzen der Physik.

In diesem Video zum Eingießen von Milch stimmen das mechanische Gesetz der Schwerkraft und der Anstieg des Flüssigkeitsspiegels mit der Realität überein. Auch die Eigenschaft, dass der Schaum beim Eingießen der Flüssigkeit immer oben ist, wird berücksichtigt Berücksichtigt werden:

Die Kuaishou-Version von Sora „Ke Ling steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren

Auch die optischen Reflexionsgesetze werden berücksichtigt, wenn sich die Pfoten und Tasten der Katze im Schatten auf der glatten Oberfläche verändern der Hauptkörper.

Die Kuaishou-Version von Sora „Ke Ling steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren

Darüber hinaus kann auch die Interaktion zwischen und der realen physischen Welt wirklich widergespiegelt werden – in dem generierten Video des kleinen Jungen, der im Video unten einen Burger isst, sind die Zahnspuren nach einem immer da Biss, und der kleine Junge genießt es, den Burger zu genießen, als würde er direkt vor Ihren Augen stattfinden.

Die Kuaishou-Version von Sora „Ke Ling steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren

Sie müssen wissen, dass es für große Modelle immer noch ziemlich schwierig ist, sich an die Gesetze der Physik zu halten, und selbst Sora kann dies nicht vollständig tun.

Zum Beispiel hat das von Sora generierte Video in derselben Szene, in der ein Burger gegessen wird, nicht nur den Nachteil, dass eine menschliche Hand nur drei Finger hat, sondern auch, dass die Bissposition nicht mit den Bissspuren auf dem Burger übereinstimmt...

Die Kuaishou-Version von Sora „Ke Ling steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren

Nicht nur in der realen Welt Die Gesetze der Physik und Bewegung sowie die Szenen der Phantasie können von Ke Ling leicht erfasst werden.

Zum Beispiel trinkt dieser Brillenhase Kaffee und liest entspannt und zufrieden die Zeitung.

Die Kuaishou-Version von Sora „Ke Ling steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren

Gleichzeitig ist Ke Lings Darstellung von Details auch sehr gut, wie zum Beispiel zwei langsam blühende Blumen, man kann die Details der Blütenblätter und Staubblätter erkennen.

Die Kuaishou-Version von Sora „Ke Ling steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren

Darüber hinaus generiert Keling nicht nur realistischere Videos, sondern auch Videos mit Auflösungen von bis zu 1080p, einer Dauer von bis zu 2 Minuten (Bildrate 30 fps) und unterstützt freies Seitenverhältnis.

Die Kuaishou-Version von Sora „Ke Ling steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren

Es umfasst auch vertikale Videos, die durchaus mit dem Kurzvideo-Ökosystem von Kuaishous übereinstimmen.

Auf dem Bild fährt ein Zug vorwärts und die Landschaft vor dem Fenster durchläuft die vier Jahreszeiten Frühling, Sommer, Herbst und Winter. Die gesamten mehr als zwei Minuten des Bildes sind sehr stimmig.

Die Kuaishou-Version von Sora „Ke Ling steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren

An diesem Punkt glaube ich, dass die Auswirkungen ausreichend nachgewiesen wurden. Wenn Sie immer noch nicht zufrieden sind, können Sie auf die offizielle Website-Plattform (siehe Ende des Artikels für das Portal) gehen Sehen Sie sich weitere magische KI-Videos an!

(Hinweis: Die Videos in diesem Artikel sind komprimiert und die hochauflösenden und neuesten Effekte unterliegen der offiziellen Website)

Welche einzigartigen Technologien werden also hinter diesen Videos von Keling verwendet?

Native Video-Generierungstechnologie-Route

Im Großen und Ganzen übernimmt Kelings großes Modell die native Wensheng-Videotechnologie-Route und ersetzt die Kombination aus Bilderzeugung + Timing-Modul. Dies ist auch der Grund, warum Kelings lange Generationszeit Frame ist Es verfügt über eine hohe Effizienz und kann die Kerngeheimnisse komplexer Bewegungen präzise verarbeiten.

Konkret ist das Kuaishou Big Model Team davon überzeugt, dass ein hervorragendes Videogenerierungsmodell vier Kernelemente berücksichtigen muss: Modelldesign, Datensicherung, Recheneffizienz und Erweiterung der Modellfunktionen.

Sora-ähnliche Modellarchitektur, Skalierungsgesetz wurde überprüft

Beginnen wir mit dem Design des Modells, einer ist stark genugPassfähigkeit und der andere ist ausreichend Parameterkapazität.

In Bezug auf die Architekturauswahl übernimmt Kelings Gesamtrahmen eine Sora-ähnliche

DiT-Struktur und verwendet Transformer, um das U-Net basierend auf dem Faltungsnetzwerk im traditionellen Diffusionsmodell zu ersetzen.

Transformer verfügt über leistungsfähigere Verarbeitungs- und Generierungsfunktionen, stärkere Erweiterungsmöglichkeiten und eine bessere Konvergenzeffizienz, wodurch die Einschränkungen von U-Net mit übermäßiger Redundanz und Inkompatibilität zwischen Empfangsfeldern und Positionierungsgenauigkeit bei der Verarbeitung komplexer Aufgaben gelöst werden.

Auf dieser Grundlage hat das große Modellteam von Kuaishou auch die

Kodierung/Dekodierung des verborgenen Raums, die Zeitmodellierung und andere Module im Modell aktualisiert.

Derzeit verwenden gängige Videogenerierungsmodelle bei der Latentraumkodierung/-dekodierung normalerweise die 2D-VAE von Stable Diffusion für die räumliche Komprimierung, aber dies führt zu offensichtlicher Informationsredundanz für Videos.

Daher hat das große Modellteam von Kuaishou das

3D-VAE-Netzwerk selbst entwickelt, um eine synchrone Komprimierung von Raum und Zeit zu erreichen, eine höhere Rekonstruktionsqualität zu erzielen und das beste Gleichgewicht zwischen Trainingsleistung und -effekt zu erreichen.

Darüber hinaus hat das große Modellteam von Kuaishou im Hinblick auf die zeitliche Informationsmodellierung einen recheneffizienten

Vollaufmerksamkeitsmechanismus (3D-Aufmerksamkeit) als räumlich-zeitliches Modellierungsmodul entworfen.

Diese Methode kann komplexe räumlich-zeitliche Bewegungen genauer modellieren und gleichzeitig den Rechenaufwand berücksichtigen, wodurch die Modellierungsfähigkeiten des Modells effektiv verbessert werden.

Zusätzlich zu den eigenen Fähigkeiten des Modells haben natürlich auch die vom Benutzer eingegebenen Textansagen einen wichtigen Einfluss auf den endgültigen generierten Effekt.

Zu diesem Zweck hat das Team speziell ein

dediziertes Sprachmodell entwickelt, das eine qualitativ hochwertige Erweiterung und Optimierung der von Benutzern eingegebenen Eingabeaufforderungen durchführen kann.

Wie sind die Daten aufgebaut? Selbstgebaute, hochwertige Daten-Screening-Lösung

Nachdem wir über das Design des Modells gesprochen haben, sind Daten auch für die Leistung des Modells von entscheidender Bedeutung.

Tatsächlich sind der unzureichende Umfang und die unzureichende Qualität der Trainingsdaten auch die heiklen Probleme, mit denen viele Entwickler von Videogenerierungsmodellen konfrontiert sind.

Online-Videos sind im Allgemeinen von geringer Qualität und können nur schwer den Schulungsanforderungen gerecht werden. Das große Modellteam von Kuaishou hat ein relativ vollständiges

Tag-System aufgebaut, mit dem die Trainingsdaten verfeinert oder die Verteilung der Trainingsdaten angepasst werden können.

Dieses System charakterisiert die Qualität von Videodaten anhand mehrerer Dimensionen wie grundlegende Videoqualität, Ästhetik und Natürlichkeit und entwirft eine Vielzahl benutzerdefinierter Beschriftungsfunktionen für jede Dimension.

Wenn Sie ein Videogenerierungsmodell trainieren, müssen Sie dem Modell gleichzeitig das Video und die entsprechende Textbeschreibung zuführen. Auch die Qualität des Videos selbst ist garantiert.

Das Entwicklungsteam hat speziell das Videobeschreibungsmodell entwickelt, mit dem genaue, detaillierte und strukturierte Videobeschreibungen generiert werden können. Verbessern Sie die Reaktionsfähigkeit von Videogenerierungsmodellen auf Textbefehle erheblich.

Auch wenn das Modell äußerst talentiert ist, kann es nicht von harter Arbeit und Übung getrennt werden.

Da das Modell und die Daten nun verfügbar sind, muss auch die Recheneffizienz mithalten. Nur so können wir das Training mit umfangreichen Daten abschließen eine begrenzte Zeit und sehen Sie signifikante Ergebnisse.

Um eine höhere Recheneffizienz zu erzielen, übernimmt das Keling Large Model nicht die aktuelle Mainstream-DDPM-Lösung in der Branche, sondern verwendet ein Flussmodell mit einem kürzeren Übertragungswegals Diffusionsmodellbasis.

Aus einer anderen Perspektive ist der Mangel an Rechenleistung auch ein Problem, mit dem viele KI-Praktiker konfrontiert sind. Selbst große Modellgiganten wie OpenAI verfügen ebenfalls über knappe Rechenleistungsressourcen.

Dieses Problem lässt sich möglicherweise nicht in kurzer Zeit vollständig lösen. Was jedoch getan werden kann, ist, die Effizienz der Rechenleistung unter den Bedingungen begrenzter Gesamthardwareressourcen so weit wie möglich zu verbessern.

Das Kuaishou-Großmodellteam nutzte den verteilten Trainingscluster und verbesserte durch Bedieneroptimierung, Optimierung der Neuberechnungsstrategie und andere Maßnahmen die Hardwareauslastung des Keling-Großmodells erheblich.

Während des Trainingsprozesses entschied sich Keling nicht dafür, alles in einem Schritt richtig zu machen, sondern verfolgte eine gestufte Trainingsstrategie, um die Auflösung schrittweise zu verbessern:

In der frühen Phase mit niedriger Auflösung geht es vor allem darum Gewinn durch Quantität. Die Daten verbessern das Verständnis und die Modellierungsfähigkeiten der konzeptionellen Vielfalt Leistung im Detail.

Die Einführung einer solchen Strategie kombiniert effektiv die Vorteile von Quantität und Qualität und stellt sicher, dass das Modell in allen Phasen des Trainings optimiert und verbessert werden kann.

Anforderungen ändern sich ständig und das Modell ist anpassungsfähig

Zusätzlich zur Forschung und Entwicklung des Basismodells hat das Kuaishou-Großmodellteam auch seine Fähigkeiten um mehrere Dimensionen wie das Seitenverhältnis erweitert.

In Bezug auf das Seitenverhältnis verwendet Keling auch nicht das Mainstream-Modell, um mit einer festen Auflösung zu trainieren.

Denn wenn traditionelle Methoden mit realen Daten mit variablen Seitenverhältnissen konfrontiert werden, führen sie normalerweise eine Vorverarbeitungslogik ein, die die Zusammensetzung der Originaldaten zerstört, was zu einer schlechten Zusammensetzung der generierten Ergebnisse führt.

Im Gegensatz dazu ermöglicht die Lösung des Kuaishou Large Model Teams dem Modell, Daten mit unterschiedlichen Seitenverhältnissen direkt zu verarbeiten,

wobei die Zusammensetzung der Originaldaten erhalten bleibt. Um der Nachfrage nach Videogenerierung von mehreren Minuten oder sogar länger in der Zukunft gerecht zu werden, hat das Team außerdem eine Video-Timing-Erweiterungslösung entwickelt, die auf Autoregression ohne offensichtliche Effektverschlechterung basiert.

Neben der Texteingabe unterstützt Keling auch eine Vielzahl von Steuerinformationseingaben, wie z. B. Kamerabewegung, Bildrate, Kanten/Schlüsselpunkte/Tiefe usw., und bietet Benutzern umfassende Funktionen zur Inhaltssteuerung.

Machen Sie keine „bemalten Kuchen“-Großmodelle, die Anwendung ist das letzte Wort

Die Großmodellindustrie ist bis heute „gerollt“, wir haben zu viele technologische Höhepunkte erlebt, aber die ursprüngliche Absicht technologischer Durchbrüche bleibt bestehen Anwendung.

Das Videogenerierungsmodell von Kuaishou Keling wurde vom führenden Kurzvideohersteller entwickelt und wird weiterhin für Anwendungen erforscht. Erwähnenswert ist, dass das große Modell von Ke Ling sofort nach seiner Veröffentlichung online ist, ganz ohne Probleme! Zeichne keinen Kuchen! Zeichne keinen Kuchen!

Kelings Wensheng-Videomodell wurde offiziell für den Betatest in der Kuaiying-APP geöffnet

Die derzeit offene Version unterstützt die 720P-Videogenerierung und die vertikale Videogenerierungsfunktion wird bald ebenfalls verfügbar sein.

Zusätzlich zu Wensheng Video hat Kuaishou auch andere Anwendungen gestartet, die auf dem großen Keling-Modell basieren, wie zum Beispiel

Die Kuaishou-Version von Sora „Ke Ling steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren „AI Dance King“

wurde in Kuaishou- und Kuaiying-APPs eingeführt. Egal, ob es sich um Thema drei oder zwei handelt, solange Sie ein Ganzkörperfoto hochladen, können die Charaktere in wenigen Minuten anmutig zur Musik tanzen, und sogar die Terrakotta-Krieger und Pferde können im schillerndsten ethnischen Stil tanzen.

Zusätzlich zum Videogenerierungsmodul hat das Kuaishou-Großmodellteam auch eine selbst entwickelte 3D-Gesichtsrekonstruktionstechnologie sowie Hintergrundstabilisierungs- und Umleitungsmodule hinzugefügt, um Ausdrücke und Bewegungseffekte lebendiger darzustellen.

Die Kuaishou-Version von Sora „Ke Ling steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren Darüber hinaus feierte auch die neuere

„KI-Singen und Tanzen“-Technologie ihr Debüt, die es den Charakteren ermöglicht, beim Tanzen den Mund zu öffnen und zu singen.

Noch ein Spoiler: Die auf dem Keling-Modell basierende Tusheng Video-Funktion wird in naher Zukunft auch für Benutzer verfügbar sein.

Tatsächlich hat Kuaishou als führender Videohersteller auch schnell mit dem großen Modellwahn mitgemacht und bereits Sprachmodelle und vinzentinische Graphenmodelle auf den Markt gebracht.

Basierend auf diesen Modellen wurden KI-Texterstellung, KI-generierte Bilder, KI-generierte Videos und weitere KI-Erstellungsfunktionen in Kuaishou- und Kuaiying-APPs eingeführt.

Im Hinblick auf die Videogenerierung hat sich Kuaishou auch mit vielen Universitäten oder wissenschaftlichen Forschungseinrichtungen zusammengetan, um nacheinander den steuerbaren Bewegungsvideogenerierungsalgorithmus Direct-a-Video, den multimodalen Generierungsalgorithmus Video-LaVIT und den Tusheng-Videoalgorithmus Schlüsseltechnologien wie der I2V-Adapter und das multimodale ästhetische Bewertungsmodell UNIAA haben tiefgreifende technische Erkenntnisse für das Keling-Modell gesammelt.

Jetzt hat die komplette Wensheng-Videofunktion von Kuaishou endlich ihr großes Debüt gegeben. Wir freuen uns darauf, dass Kuaishou als Erster seine Videogenerierungsfunktionen in die Praxis umsetzt kurze Videoszenarien.

Wenn Sie sich für die Erstellung von KI-Videos interessieren, können Sie dies auch in der Kuaiying-App herausfinden.

Portal: https://www.php.cn/link/1e4dc58a5c8c8908a4d317d6ef44a4d0

Das obige ist der detaillierte Inhalt vonDie Kuaishou-Version von Sora „Ke Ling' steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!