Meta sagte in einem Blogbeitrag, in dem die Arbeit angekündigt wurde: „Generative KI-Forschung fördert den kreativen Ausdruck, indem sie Menschen die Werkzeuge an die Hand gibt, mit denen sie schnell und einfach neue Inhalte oder mit nur wenigen Textzeilen erstellen können.“ „Video erweckt Ihre Fantasie zum Leben und erstellt einzigartige Videos voller lebendiger Farben und Landschaften“, sagte Mark Zuckerberg, CEO von Meta, auf Facebook. Die Arbeit sei ein „erstaunlicher Fortschritt“ und fügte hinzu: „Das Erstellen von Videos ist viel schwieriger als das Erstellen von Fotos, weil in Zusätzlich zur korrekten Generierung jedes Pixels muss das System auch vorhersagen, wie sie sich im Laufe der Zeit verändern werden.“
Diese Videos sind nicht länger als 5 Sekunden und enthalten keinen Ton, enthalten aber jede Menge Tipps. Der beste Weg, die Leistung eines Modells zu beurteilen, besteht darin, seine Ausgabe zu beobachten. Allerdings darf derzeit niemand auf das Modell zugreifen. Dies bedeutet, dass diese Clips von den Entwicklern wahrscheinlich sorgfältig ausgewählt wurden, um das System im besten Licht zu präsentieren.
Auch wenn diese Videos offensichtlich computergeneriert sind, wird sich die Ausgabe dieses KI-Modells in naher Zukunft rasch verbessern. Im Gegensatz dazu haben sich KI-Bildgeneratoren in nur wenigen Jahren von der Erstellung unverständlicher, randloser Bilder zu lebensechten Inhalten entwickelt. Während der Videofortschritt aufgrund der nahezu unendlichen Komplexität des Themas möglicherweise langsam ist, wird der Wert einer nahtlosen Videogenerierung viele Agenturen und Unternehmen dazu inspirieren, erhebliche Ressourcen für das Projekt aufzuwenden.
Wie beim Text-zu-Bild-Modell ist es möglich, schädliche Anwendungen zu haben.
In einem Blogbeitrag zur Ankündigung von Make-a-Video bemerkte Meta, dass das Videogenerierungstool „für YouTuber und Künstler“ von unschätzbarem Wert sein könnte. Aber wie beim Text-zu-Bild-Muster sind die Aussichten schwierig. Die Ergebnisse dieser Tools können für Desinformation und Propaganda verwendet werden. Meta hofft, „nachdenkliche Überlegungen zum Aufbau eines solchen generativen KI-Systems anzustellen“ und hat nur einen Artikel zum Make-A-Video-Modell veröffentlicht. Das Unternehmen sagte, es plane die Veröffentlichung einer Demoversion des Systems, sagte jedoch nicht, wann und wie der Zugriff auf das Modell eingeschränkt werden würde.
Es ist erwähnenswert, dass Meta nicht die einzige Agentur ist, die an KI-Videogeneratoren arbeitet. Anfang des Jahres veröffentlichte ein Forscherteam der Tsinghua-Universität und der Beijing Academy of Artificial Intelligence (BAAI) ihr eigenes Text-zu-Video-Modell namens CogVideo. In einem Artikel, der das Modell beschreibt, stellen Forscher von
Meta fest, dass Make-A-Video auf Paaren von Bildern und Bildunterschriften sowie auf unbeschrifteten Videoclips trainiert wird. Der Schulungsinhalt stammt aus zwei Datensätzen (WebVid-10M und HD-VILA-100M), die zusammen Millionen von Videos mit Hunderttausenden Stunden Filmmaterial enthalten. Dazu gehören Stock-Videoclips, die von Websites wie Shutterstock erstellt und aus dem Internet entnommen wurden.
Die Forscher weisen in der Arbeit darauf hin, dass das Modell neben verschwommenem Filmmaterial und abgehackten Animationen auch eine Reihe technischer Einschränkungen aufweist. Beispielsweise können ihre Trainingsmethoden keine Informationen erlernen, die möglicherweise nur von Menschen abgeleitet werden, die sich die Videos ansehen – beispielsweise, ob ein Video einer Handbewegung von links nach rechts oder von rechts nach links verläuft. Weitere Probleme sind die Erstellung von Videos, die länger als 5 Sekunden sind, Videos mit mehreren Szenen und Ereignissen sowie höhere Auflösungen. Make-A-Video gibt derzeit 16 Videobilder mit einer Auflösung von 64 * 64 Pixeln aus und verwendet dann ein separates Modell der künstlichen Intelligenz, um die Größe auf 768 * 768 zu erhöhen.
Das Team von Meta stellte außerdem fest, dass Make-A-Video wie alle KI-Modelle, die anhand von Daten aus dem Internet trainiert werden, soziale Vorurteile, auch schädliche, lernt und möglicherweise übertreibt. In Text-zu-Bild-Modellen verstärken diese Vorurteile häufig soziale Vorurteile. Bitten Sie jemanden beispielsweise, ein Bild eines „Terroristen“ zu erstellen, das wahrscheinlich eine Person zeigt, die einen Turban trägt. Ohne Open Access ist es jedoch schwer zu sagen, welche Vorurteile die von Meta erlernten Modelle beeinflussen.
Meta sagte, dass das Unternehmen „diese generative KI-Forschung und -Ergebnisse offen mit der Technologie-Community teilt, um deren Feedback zu erhalten, und weiterhin unser verantwortungsvolles KI-Framework nutzen wird, um unseren Ansatz für diese neue technische Methode zu verfeinern und weiterzuentwickeln.“
Da Generatoren für künstliche Intelligenz in den Bereichen Malerei und Video immer beliebter werden, glaube ich, dass bald (vielleicht schon) Tools zur Generierung künstlicher Intelligenz für andere Künste (z. B. Musik) auf den Markt kommen werden.
Das obige ist der detaillierte Inhalt vonVerwandeln Sie Skripte in Videos, künstliche Intelligenz erfordert nur einen Schritt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!