Ich gebe dir einen Absatz und bitte dich, ein Video zu machen. Kannst du das machen?
Meta sagte, ich kann es schaffen.
Du hast richtig gehört: Mit KI kannst du auch Filmemacher werden!
Vor kurzem hat Meta ein neues KI-Modell auf den Markt gebracht, und der Name ist sehr einfach: Make-A-Video.
Wie leistungsstark ist dieses Modell?
Mit nur einem Satz können Sie die Szene „Drei galoppierende Pferde“ erkennen.
Sogar LeCun sagte: Was kommen soll, wird immer kommen.
Ohne weitere Umschweife schauen wir uns einfach die Effekte an.
Zwei Kängurus kochen fleißig in der Küche (ob sie essen können, ist eine andere Frage)
Nahaufnahme: Der Maler malt auf der Leinwand
Die Welt der Zwei Menschen, die im starken Regen spazieren gehen (einheitliche Schritte) Retriever ist Essen an einem wunderschönen tropischen Sommerstrand Eis (Pfoten haben sich weiterentwickelt)
Der Katzenbesitzer schaut mit der Fernbedienung fern (Pfoten haben sich weiterentwickelt)
Ein Teddybär zeichnet ein selbst- Porträt seiner selbst
Was unerwartet, aber vernünftig ist, ist, dass sich die „Hände“, die Hunde zum Halten von Eis, Katzen zum Halten von Fernbedienungen und Teddybären zum Zeichnen verwenden, alle wie Menschen „entwickelt“ haben! (Taktisch rückwärts)
Natürlich kann Make-A-Video nicht nur Text in Videos umwandeln, sondern auch statische Bilder in Gifs umwandeln.
Eingabe:
Ausgabe:
Eingabe:
Ausgabe: (Das Licht scheint etwas fehl am Platz zu sein)
2 statische Bilder in GIF, geben Sie das Meteoritenbild ein
Ausgabe:
Und das Video in ein Video verwandeln?
Eingabe:
Ausgabe:
Eingabe:
Ausgabe:
Heute hat Meta sein eigenes Neuestes veröffentlicht Forschung MAKE-A-VIDEO: TEXT-TO-VIDEO-GENERATION OHNE TEXT-VIDEO-DATEN.
Papieradresse: https://makeavideo.studio/Make-A-Video.pdf
Bevor dieses Modell erschien, hatten wir bereits Stable Diffusion.
Kluge Wissenschaftler haben die KI bereits gebeten, Bilder mit nur einem Satz zu erzeugen. Was werden sie als nächstes tun?
Natürlich geht es darum, ein Video zu erstellen.
Ein Superheldenhund mit rotem Umhang fliegt in den Himmel
Ein Video zu erstellen ist viel schwieriger als ein Bild. Wir müssen nicht nur mehrere Bilder desselben Motivs und derselben Szene erstellen, sondern sie auch zeitnah und kohärent gestalten.
Dies erhöht die Komplexität der Bildgenerierungsaufgabe – wir können nicht einfach DALLE verwenden, um 60 Bilder zu generieren und diese dann zu einem Video zusammenzufügen. Der Effekt wird sehr dürftig und unrealistisch sein.
Deshalb brauchen wir ein Modell, das die Welt besser verstehen und es ihr ermöglichen kann, auf dieser Ebene des Verständnisses eine zusammenhängende Reihe von Bildern zu erzeugen. Nur dann können die Bilder nahtlos ineinander übergehen.
Mit anderen Worten: Unser Ziel ist es, eine Welt zu simulieren und dann ihre Aufzeichnungen zu simulieren. Wie geht das?
Nach früheren Vorstellungen würden Forscher eine große Anzahl von Text-Video-Paaren verwenden, um das Modell zu trainieren, aber in der aktuellen Situation ist diese Verarbeitungsmethode nicht realistisch. Denn diese Daten sind schwer zu beschaffen und die Schulungskosten sind sehr hoch.
Also öffneten sich die Forscher und wählten einen völlig neuen Ansatz.
Sie entschieden sich dafür, ein Text-zu-Bild-Modell zu entwickeln und es dann auf Videos anzuwenden.
Zufälligerweise hat Meta vor einiger Zeit Make-A-Scene entwickelt, ein Modell vom Text zum Bild.
Überblick über die Make-A-Scene-Methode
Die Gelegenheit für dieses Modell besteht darin, dass Meta den kreativen Ausdruck fördern und diesen Text-zu-Bild-Trend mit dem vorherigen Sketch-to vergleichen möchte -Bildmodell kombiniert, was zu einer fantastischen Verschmelzung von Text und skizzenbedingter Bildgenerierung führt.
Das bedeutet, dass wir schnell eine Katze skizzieren und aufschreiben können, welche Art von Bild wir wollen. Unter Anleitung von Skizzen und Text erstellt dieses Modell in Sekundenschnelle die perfekte Illustration, die wir wollen.
Sie können sich diesen multimodalen generativen KI-Ansatz als Dall-E-Modell mit mehr Kontrolle über die Generierung vorstellen, da auch schnelle Skizzen als Eingabe verwendet werden können.
Der Grund, warum es multimodal genannt wird, liegt darin, dass es mehrere Modalitäten als Eingabe annehmen kann, wie zum Beispiel Text und Bilder. Im Gegensatz dazu kann Dall-E nur Bilder aus Text generieren.
Um ein Video zu generieren, muss die Dimension Zeit hinzugefügt werden, daher fügten die Forscher dem Make-A-Scene-Modell eine räumlich-zeitliche Pipeline hinzu.
Nach dem Hinzufügen der Zeitdimension generiert dieses Modell nicht nur ein Bild, sondern 16 Bilder mit niedriger Auflösung, um ein zusammenhängendes Kurzvideo zu erstellen.
Diese Methode ähnelt tatsächlich dem Text-zu-Bild-Modell, der Unterschied besteht jedoch darin, dass basierend auf der herkömmlichen zweidimensionalen Faltung eine eindimensionale Faltung hinzugefügt wird.
Durch einfaches Hinzufügen einer eindimensionalen Faltung konnten die Forscher die vorab trainierte zweidimensionale Faltung unverändert lassen und gleichzeitig eine zeitliche Dimension hinzufügen. Forscher können dann von Grund auf trainieren und dabei einen Großteil des Codes und der Parameter des Make-A-Scene-Bildmodells wiederverwenden.
Gleichzeitig möchten die Forscher auch Texteingaben zur Steuerung dieses Modells verwenden, das dem Bildmodell mit CLIP-Einbettung sehr ähnlich sein wird.
In diesem Fall erhöhten die Forscher die räumliche Dimension, indem sie Textmerkmale mit Bildmerkmalen vermischten. Die Methode ist die gleiche wie oben: Beibehaltung des Aufmerksamkeitsmoduls im Make-A-Scene-Modell und Hinzufügen einer eindimensionalen Dimension Achtung: Kopieren Sie das Bildgeneratormodell, fügen Sie es ein und wiederholen Sie das Generierungsmodul für eine weitere Dimension, um 16 Anfangsbilder zu erhalten.
Aber wenn man sich nur auf diese 16 Anfangsbilder verlässt, kann das Video nicht generiert werden.
Forscher müssen aus diesen 16 Hauptbildern ein hochauflösendes Video erstellen. Ihr Ansatz besteht darin, auf frühere und zukünftige Frames zuzugreifen und diese gleichzeitig sowohl in der zeitlichen als auch in der räumlichen Dimension iterativ zu interpolieren.
Auf diese Weise wurden zwischen diesen 16 Anfangsbildern neue, größere Bilder basierend auf den Bildern davor und danach generiert, sodass die Bewegung kohärent und das Gesamtvideo flüssig wurde.
Dies geschieht über ein Frame-Interpolationsnetzwerk, das vorhandene Bilder nutzen kann, um die Lücken zu füllen und Zwischeninformationen zu generieren. In der räumlichen Dimension bewirkt es das Gleiche: Es vergrößert das Bild, füllt die Lücken in Pixeln und macht das Bild hochauflösender.
Zusammenfassend lässt sich sagen, dass die Forscher zur Generierung von Videos ein Text-zu-Bild-Modell verfeinert haben. Sie nahmen ein leistungsstarkes Modell, das bereits trainiert war, optimierten und trainierten es, um es an das Video anzupassen.
Durch die Hinzufügung räumlicher und zeitlicher Module können Sie das Modell einfach an diese neuen Daten anpassen, ohne es neu trainieren zu müssen, was eine Menge Kosten spart.
Diese Art der Umschulung verwendet unbeschriftete Videos und muss dem Modell nur beibringen, die Konsistenz des Videos und der Videobilder zu verstehen, was die Erstellung des Datensatzes erleichtert.
Schließlich nutzten die Forscher erneut das Bildoptimierungsmodell, um die räumliche Auflösung zu verbessern, und nutzten die Frame-Interpolationskomponente, um weitere Frames hinzuzufügen, um das Video flüssiger zu machen.
Natürlich weisen die aktuellen Ergebnisse von Make-A-Video immer noch Mängel auf, genau wie das Text-zu-Bild-Modell. Aber wir alle wissen, wie schnell der Fortschritt im Bereich der KI ist.
Wenn Sie mehr wissen möchten, können Sie sich das Meta AI-Papier im Link ansehen. Die Community entwickelt außerdem eine PyTorch-Implementierung. Bleiben Sie also auf dem Laufenden, wenn Sie diese selbst implementieren möchten.
Eine Reihe chinesischer Forscher waren an diesem Artikel beteiligt: Yin Xi, An Jie, Zhang Songyang, Qiyuan Hu.
Yin Xi, FAIR-Forscher. Zuvor arbeitete er für Microsoft als leitender Anwendungswissenschaftler für Microsoft Cloud und AI. Er erhielt seinen Doktortitel vom Department of Computer Science and Engineering der Michigan State University und seinen Bachelor-Abschluss in Elektrotechnik von der Wuhan University im Jahr 2013. Die Hauptforschungsbereiche sind multimodales Verständnis, groß angelegte Zielerkennung, Gesichtsbegründung usw.
Anjie ist Doktorandin am Fachbereich Informatik der University of Rochester. Studieren Sie bei Professor Roger Bo. Zuvor erhielt er 2016 und 2019 Bachelor- und Masterabschlüsse von der Peking-Universität. Zu den Forschungsinteressen gehören Computer Vision, tiefe generative Modelle und KI+Kunst. Teilnahme an der Make-A-Video-Forschung als Praktikant.
Zhang Songyang ist Doktorand am Fachbereich Informatik der Universität Rochester und studiert bei Professor Roger Bo. Er erhielt seinen Bachelor-Abschluss von der Southeast University und seinen Master-Abschluss von der Zhejiang-Universität. Zu den Forschungsinteressen gehören Momentlokalisierung in natürlicher Sprache, unbeaufsichtigte Grammatikinduktion, skelettbasierte Aktionserkennung usw. Teilnahme an der Make-A-Video-Forschung als Praktikant.
Qiyuan Hu, damals KI-Resident bei FAIR, beschäftigte sich mit der Erforschung multimodaler generativer Modelle, die die menschliche Kreativität verbessern. Sie promovierte in medizinischer Physik an der University of Chicago und arbeitete an der KI-gestützten medizinischen Bildanalyse. Arbeitet jetzt bei Tempus Labs als Wissenschaftler für maschinelles Lernen.
Vor einiger Zeit haben große Unternehmen wie Google ihre eigenen Text-zu-Bild-Modelle wie Parti usw. veröffentlicht.
Manche denken sogar, dass generative Text-zu-Video-Modelle noch eine Weile auf sich warten lassen.
Unerwartet ließ Meta dieses Mal eine Bombe platzen.
Tatsächlich gibt es heute auch ein Text-zu-Video-Generierungsmodell Phenaki, das bei ICLR 2023 eingereicht wurde. Da es sich noch in der Blind-Review-Phase befindet, ist die Institution des Autors noch unbekannt.
Netizens sagten, dass von DALLE über Stable Diffuson bis hin zu Make-A-Video alles zu schnell ging.
Das obige ist der detaillierte Inhalt vonDas innovative SOTA-Modell von Meta kann auf der Grundlage eines Satzes erstaunliche Videos generieren und so einen Internet-Hype auslösen!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!