Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern-KI-php.cn

Inhaltsverzeichnis

Bildvideo: Erstellen Sie anhand von Textaufforderungen ein HD-Video.

Phenaki: Du erzählst die Geschichte und ich zeichne sie

Heim

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 pm 06:40 PM

谷歌模型

Nachdem Technologieriesen wie Meta und Google mehr als ein halbes Jahr lang Text in Bild umgewandelt haben, haben sie ein neues Schlachtfeld im Visier: Text in Video.

Letzte Woche hat Meta ein Tool angekündigt, mit dem sich hochwertige Kurzvideos erstellen lassen – Make-A-Video. Die mit diesem Tool erstellten Videos sind sehr einfallsreich.

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

Natürlich ist Google nicht zu übertreffen. Soeben hat der CEO des Unternehmens, Sundar Pichai, persönlich seine neuesten Errungenschaften auf diesem Gebiet bekannt gegeben: zwei Text-zu-Video-Tools – Imagen Video und Phenaki. Ersteres konzentriert sich auf die Videoqualität, während letzteres hauptsächlich die Videolänge in Frage stellt. Man kann sagen, dass jedes seine eigenen Vorzüge hat.

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

Der Teddybär beim Abwaschen unten wurde mit Imagen Video erstellt. Wie Sie sehen, sind Auflösung und Kohärenz des Bildes bis zu einem gewissen Grad gewährleistet.

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

Bildvideo: Erstellen Sie anhand von Textaufforderungen ein HD-Video.

Die generative Modellierung hat in neueren Text-zu-Bild-KI-Systemen wie DALL-E 2, Imagen, Parti, CogView und Latent Diffusion erhebliche Fortschritte gemacht . Insbesondere Diffusionsmodelle haben bei einer Vielzahl generativer Modellierungsaufgaben wie Dichteschätzung, Text-zu-Sprache, Bild-zu-Bild, Text-zu-Bild und 3D-Synthese große Erfolge erzielt.

Was Google tun möchte, ist, aus Text ein Video zu generieren. Frühere Arbeiten zur Videogenerierung konzentrierten sich auf eingeschränkte Datensätze mit autoregressiven Modellen, latenten Variablenmodellen mit autoregressiven Priors und neuerdings auch nicht-autoregressiven latenten Variablenmethoden. Diffusionsmodelle haben auch hervorragende Fähigkeiten zur Videogenerierung mittlerer Auflösung gezeigt.

Auf dieser Grundlage startete Google Imagen Video, ein textbedingtes Videogenerierungssystem, das auf dem Kaskadenvideodiffusionsmodell basiert. Bei einer Textaufforderung kann Imagen Video hochauflösende Videos über ein System generieren, das aus einem eingefrorenen T5-Text-Encoder, einem grundlegenden Videogenerierungsmodell und einem kaskadierten räumlich-zeitlichen Video-Superauflösungsmodell besteht.

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

Papieradresse: https://imagen.research.google/video/paper.pdf

In dem Papier beschreibt Google ausführlich, wie das System in einen hochauflösenden Text erweitert werden kann -zu-Video-Modell, einschließlich Entwurfsentscheidungen wie der Auswahl eines vollständig faltenden räumlich-zeitlichen Superauflösungsmodells bei bestimmten Auflösungen und der Auswahl der V-Parametrisierung des Diffusionsmodells. Google hat außerdem frühere Forschungsergebnisse zur diffusionsbasierten Bildgenerierung erfolgreich auf eine Einstellung zur Videogenerierung migriert.

Google hat herausgefunden, dass Imagen Video das 128×128-Video mit 24 Bildern pro Sekunde und 64 Bildern, das bei früheren Arbeiten erstellt wurde, auf HD-Video mit 128 Bildern und 1280×768 hochskalieren kann. Darüber hinaus verfügt Imagen Video über ein hohes Maß an Steuerbarkeit und Weltwissen, kann Video- und Textanimationen in verschiedenen künstlerischen Stilen generieren und verfügt über Funktionen zum Verständnis von 3D-Objekten.

Lassen Sie uns weitere von Imagen Video generierte Videos genießen, wie zum Beispiel einen Panda, der ein Auto fährt:

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

Ein Holzboot, das im Weltraum reist:

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

Für weitere generierte Videos, bitte siehe: https://imagen.research.google/video/

Methoden und Experimente

Insgesamt ist das Videogenerierungs-Framework von Google eine Kaskade von sieben Sub-Video-Diffusionsmodellen, die eine textbedingte Videogenerierung, eine räumliche Superauflösung bzw. eine zeitliche Superauflösung durchführen. Mit der gesamten Kaskade ist Imagen Video in der Lage, 128 Bilder von 1280×768 HD-Videos (ca. 126 Millionen Pixel) mit 24 Bildern pro Sekunde zu produzieren.

Mittlerweile generiert Imagen Video mithilfe der progressiven Destillation qualitativ hochwertige Videos mit nur acht Diffusionsschritten in jedem Untermodell. Dies beschleunigt die Videogenerierungszeit um etwa das 18-fache.

Abbildung 6 unten zeigt die gesamte Kaskadenpipeline von Imagen Video, einschließlich 1 Encoder für eingefrorenen Text, 1 grundlegendes Videodiffusionsmodell, 3 Modellen mit räumlicher Superauflösung (SSR) und 3 Modellen mit zeitlicher Superauflösung (TSR). Die sieben Videodiffusionsmodelle verfügen über insgesamt 11,6 Milliarden Parameter.

Während des Generierungsprozesses verbessert das SSR-Modell die räumliche Auflösung aller Eingabebilder, während das TSR-Modell die zeitliche Auflösung verbessert, indem es Zwischenbilder zwischen Eingabebildern ausfüllt. Alle Modelle erzeugen gleichzeitig einen vollständigen Block von Frames, sodass das SSR-Modell nicht unter auffälligen Artefakten leidet.

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

Imagen Video basiert auf der Video-U-Net-Architektur, wie in Abbildung 7 unten dargestellt.

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

In Experimenten wird Imagen Video auf dem öffentlich verfügbaren Bild-Text-Datensatz LAION-400M, 14 Millionen Video-Text-Paaren und 60 Millionen Bild-Text-Paaren trainiert. Dadurch ist Imagen Video, wie oben erwähnt, nicht nur in der Lage, hochauflösende Videos zu generieren, sondern verfügt auch über einige einzigartige Funktionen, die unstrukturierte generative Modelle, die rein aus Daten lernen, nicht haben.

Abbildung 8 unten zeigt die Fähigkeit von Imagen Video, Videos mit künstlerischen Stilen zu erstellen, die aus Bildinformationen gelernt wurden, wie z. B. Van Goghs Malstil oder Videos im Aquarellstil.

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

Abbildung 9 unten zeigt die Fähigkeit von Imagen Video, 3D-Strukturen zu verstehen. Es kann Videos von rotierenden Objekten erstellen und dabei die allgemeine Struktur des Objekts beibehalten.

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

Abbildung 10 unten zeigt, wie Imagen Video zuverlässig Text in einer Vielzahl animierter Stile generieren kann, von denen einige mit herkömmlichen Werkzeugen schwer zu erstellen sind.

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

Weitere experimentelle Details finden Sie im Originalpapier.

Phenaki: Du erzählst die Geschichte und ich zeichne sie

Wir wissen, dass ein Video zwar im Wesentlichen aus einer Reihe von Bildern besteht, die Erstellung eines zusammenhängenden langen Videos jedoch nicht so einfach ist, da bei dieser Aufgabe die verfügbare hohe Qualität erforderlich ist Daten sind knapp und die Aufgaben selbst sind rechenintensiv.

Was noch problematischer ist, ist, dass die kurzen Textaufforderungen, die wie bisher zur Bildgenerierung verwendet werden, normalerweise nicht ausreichen, um eine vollständige Beschreibung des Videos bereitzustellen. Was das Video benötigt, ist eine Reihe von Aufforderungen oder Geschichten. Idealerweise muss ein Videogenerierungsmodell in der Lage sein, Videos beliebiger Länge zu generieren und die generierten Videobilder entsprechend sofortigen Änderungen zu einem bestimmten Zeitpunkt t anzupassen. Nur mit dieser Fähigkeit können die vom Modell erzeugten Werke als „Video“ und nicht als „bewegte Bilder“ bezeichnet werden und den Weg für reale kreative Anwendungen in Kunst, Design und Inhaltserstellung öffnen.

Forscher von Google und anderen Institutionen sagten: „Unseres Wissens wurde die geschichtenbasierte bedingte Videogenerierung noch nie zuvor erforscht, und dies ist die erste frühe Arbeit, die sich diesem Ziel nähert.“

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

Papierlink: https://pub-bede3007802c4858abc6f742f405d4ef.r2.dev/paper.pdf
Projektlink: https://phenaki.github.io/#interactive

Da es keine geschichtenbasierten Datensätze gibt, aus denen man lernen könnte, haben Forscher keine Möglichkeit, sich einfach auf traditionelle Deep-Learning-Methoden (einfaches Lernen aus Daten) zu verlassen, um diese Aufgaben zu erledigen. Deshalb haben sie speziell für diese Aufgabe ein Modell entworfen.

Dieses neue Text-zu-Video-Modell heißt Phenaki und verwendet „Text-zu-Video“- und „Text-zu-Bild“-Daten zum gemeinsamen Training. Das Modell verfügt über die folgenden Funktionen:

1 Generieren Sie zeitlich kohärente, vielfältige Videos unter der Bedingung einer offenen Domänenaufforderung, auch wenn es sich bei der Aufforderung um eine neue Konzeptkombination handelt (siehe Abbildung 3 unten). Das generierte Video kann mehrere Minuten lang sein, auch wenn das zum Training des Modells verwendete Video nur 1,4 Sekunden lang ist (8 Bilder/Sekunde). ), wie in Abbildung 1 und unten in Abbildung 5 dargestellt:

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

Anhand der folgenden Animation können wir die Kohärenz und Vielfalt der von Phenaki generierten Videos erkennen: Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

Um diese Funktionen zu implementieren, recherchieren Sie. Sie können sich nicht auf vorhandene Video-Encoder verlassen, da diese Encoder nur Videos mit fester Größe dekodieren oder Frames unabhängig kodieren können. Um dieses Problem zu lösen, führten sie eine neue Encoder-Decoder-Architektur ein – C-ViViT. Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern

Google war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern C-ViViT kann:

Die zeitliche Redundanz im Video nutzen, um die Rekonstruktionsqualität jedes Frame-Modells zu verbessern und gleichzeitig die Anzahl der Video-Tokens um 40 % oder mehr zu komprimieren;

Ermöglicht die Kodierung und Dekodierung von Videos variabler Länge bei gegebener Kausalstruktur.

PHENAKI-Modellarchitektur

Inspiriert durch frühere Forschungen zu autoregressivem Text-zu-Bild und Text-zu-Video besteht Phenakis Design hauptsächlich aus zwei Teilen (siehe Abbildung 2 unten): Einer komprimiert das Video in Diskret Ein Encoder-Decoder-Modell für die Einbettung (d. h. Token) und ein Transformatormodell, das die Texteinbettung in ein Video-Token umwandelt.

Eine komprimierte Darstellung eines Videos zu erhalten, ist eine der größten Herausforderungen bei der Erstellung von Videos aus Text. Frühere Arbeiten verwendeten entweder Bildencoder pro Frame wie VQ-GAN oder Videoencoder mit fester Länge wie VideoVQVAE. Ersteres ermöglicht die Generierung von Videos beliebiger Länge, in der Praxis müssen die Videos jedoch kurz sein, da der Encoder das Video nicht rechtzeitig komprimieren kann und die Token in aufeinanderfolgenden Frames hochredundant sind. Letzteres ist hinsichtlich der Anzahl der Token effizienter, ermöglicht jedoch nicht die Generierung von Videos beliebiger Länge.

In Phenaki besteht das Ziel des Forschers darin, Videos variabler Länge zu generieren und gleichzeitig die Anzahl der Video-Tokens so weit wie möglich zu komprimieren, damit das Transformer-Modell innerhalb der aktuellen Einschränkungen der Rechenressourcen verwendet werden kann. Zu diesem Zweck führen sie C-ViViT ein, eine kausale Variante von ViViT mit zusätzlichen Architekturänderungen für die Videogenerierung, die Videos sowohl in zeitlicher als auch in räumlicher Dimension komprimieren kann und gleichzeitig die zeitliche Autoregression beibehält. Diese Funktion ermöglicht die Generierung autoregressiver Videos beliebiger Länge.

Um Texteinbettungen zu erhalten, verwendet Phenaki auch ein vorab trainiertes Sprachmodell – T5X.

Bitte beachten Sie das Originalpapier für spezifische Details.

Das obige ist der detaillierte Inhalt vonGoogle war der Bildgenerierung überdrüssig und wandte sich der Text-Video-Generierung zu, zwei leistungsstarken Tools, die gleichzeitig Auflösung und Länge herausfordern. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7464

CakePHP-Tutorial

1376

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Wie man Deepseek kommentiert Feb 19, 2025 pm 05:42 PM

Deepseek ist ein leistungsstarkes Informations -Abruf -Tool. .

So suchen Sie Deepseek Feb 19, 2025 pm 05:39 PM

Deepseek ist eine proprietäre Suchmaschine, die nur schneller und genauer in einer bestimmten Datenbank oder einem bestimmten System sucht. Bei der Verwendung wird den Benutzern empfohlen, das Dokument zu lesen, verschiedene Suchstrategien auszuprobieren, Hilfe und Feedback zur Benutzererfahrung zu suchen, um die Vorteile optimal zu nutzen.

Sesame Open Door Exchange -Webseite Registrierung Link Gate Trading App Registrierung Website Neueste Feb 28, 2025 am 11:06 AM

In diesem Artikel wird der Registrierungsprozess der Webversion Sesam Open Exchange (GATE.IO) und die Gate Trading App im Detail vorgestellt. Unabhängig davon, ob es sich um eine Webregistrierung oder eine App -Registrierung handelt, müssen Sie die offizielle Website oder den offiziellen App Store besuchen, um die Genuine App herunterzuladen, und dann den Benutzernamen, das Kennwort, die E -Mail, die Mobiltelefonnummer und die anderen Informationen eingeben und eine E -Mail- oder Mobiltelefonüberprüfung abschließen.

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Feb 21, 2025 pm 10:57 PM

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Bitbit ist eine Kryptowährungsbörse, die den Benutzern Handelsdienste anbietet. Die mobilen Apps der Exchange können aus den folgenden Gründen nicht direkt über AppStore oder Googleplay heruntergeladen werden: 1. App Store -Richtlinie beschränkt Apple und Google daran, strenge Anforderungen an die im App Store zulässigen Anwendungsarten zu haben. Kryptowährungsanträge erfüllen diese Anforderungen häufig nicht, da sie Finanzdienstleistungen einbeziehen und spezifische Vorschriften und Sicherheitsstandards erfordern. 2. Die Einhaltung von Gesetzen und Vorschriften In vielen Ländern werden Aktivitäten im Zusammenhang mit Kryptowährungstransaktionen reguliert oder eingeschränkt. Um diese Vorschriften einzuhalten, kann die Bitbit -Anwendung nur über offizielle Websites oder andere autorisierte Kanäle verwendet werden

Sesame Open Door Trading Platform Download Mobile Version Gateio Trading Platform Download -Adresse Feb 28, 2025 am 10:51 AM

Es ist wichtig, einen formalen Kanal auszuwählen, um die App herunterzuladen und die Sicherheit Ihres Kontos zu gewährleisten.

Top 10 für Crypto Digital Asset Trading App (2025 Global Ranking) empfohlen Mar 18, 2025 pm 12:15 PM

Dieser Artikel empfiehlt die Top Ten Ten Cryptocurrency -Handelsplattformen, die es wert sind, auf Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, BYDFI und Xbit -dezentrale Börsen geachtet zu werden. Diese Plattformen haben ihre eigenen Vorteile in Bezug auf Transaktionswährungsmenge, Transaktionstyp, Sicherheit, Konformität und Besonderheiten. Die Auswahl einer geeigneten Plattform erfordert eine umfassende Überlegung, die auf eigener Handelserfahrung, Risikotoleranz und Investitionspräferenzen basiert. Ich hoffe, dieser Artikel hilft Ihnen dabei, den besten Anzug für sich selbst zu finden

Sesam Open Door Exchange Webseite Login Neueste Version Gateio Offizieller Website Eingang Mar 04, 2025 pm 11:48 PM

Eine detaillierte Einführung in den Anmeldungsbetrieb der Sesame Open Exchange -Webversion, einschließlich Anmeldeschritte und Kennwortwiederherstellungsprozess.

Gate.io Exchange Official Registration Portal Feb 20, 2025 pm 04:27 PM

Gate.io ist ein führender Kryptowährungsaustausch, der eine breite Palette von Krypto -Vermögenswerten und Handelspaaren bietet. Registrierung von Gate.io ist sehr einfach. Vervollständigen Sie die Registrierung. Mit Gate.io können Benutzer ein sicheres und bequemes Kryptowährungshandelserlebnis genießen.

See all articles