Als Sora die Videogenerierung in Gang setzte, begann Meta unter der Leitung chinesischer Autoren, Agent zu verwenden, um das Video automatisch zu schneiden-KI-php.cn

Inhaltsverzeichnis

Heim

Als Sora die Videogenerierung in Gang setzte, begann Meta unter der Leitung chinesischer Autoren, Agent zu verwenden, um das Video automatisch zu schneiden

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 20, 2024 pm 03:50 PM

视频 ai 视频编辑

In letzter Zeit hat der Bereich der KI-Videotechnologie viel Aufmerksamkeit erregt, insbesondere das von OpenAI eingeführte große Modell der Sora-Videogeneration, das für breite Diskussionen gesorgt hat. Gleichzeitig haben auch groß angelegte KI-Modelle wie Agent im Bereich der Videobearbeitung starke Stärken gezeigt.

Obwohl für die Bearbeitung von Videobearbeitungsaufgaben natürliche Sprache verwendet wird, können Benutzer ihre Absichten ohne manuelle Vorgänge direkt zum Ausdruck bringen. Allerdings erfordern die meisten aktuellen Videobearbeitungstools immer noch viele manuelle Vorgänge und es mangelt ihnen an personalisierter kontextbezogener Unterstützung. Dies führt dazu, dass Benutzer komplexe Videobearbeitungsprobleme selbst lösen müssen.

Der Schlüssel liegt darin, wie man ein Videobearbeitungstool entwirft, das als Kollaborateur fungieren und Benutzer während des Bearbeitungsprozesses kontinuierlich unterstützen kann? In diesem Artikel schlagen Forscher der University of Toronto, Meta (Reality Labs Research) und der University of California, San Diego vor, die multifunktionalen Sprachfunktionen großer Sprachmodelle (LLM) für die Videobearbeitung zu nutzen und die Zukunft zu erkunden Videobearbeitungsparadigma, wodurch die Frustration mit dem manuellen Videobearbeitungsprozess reduziert wird.

Als Sora die Videogenerierung in Gang setzte, begann Meta unter der Leitung chinesischer Autoren, Agent zu verwenden, um das Video automatisch zu schneiden

Papiertitel: LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video Editing
Papieradresse: https://arxiv.org/pdf/2402.10294.pdf

Research Der Autor hat ein Videobearbeitungstool namens LAVE entwickelt, das mehrere von LLM bereitgestellte Sprachverbesserungsfunktionen integriert. LAVE führt ein intelligentes Planungs- und Ausführungssystem auf Basis von LLM ein, das die Freiform-Sprachanweisungen des Benutzers interpretieren, zugehörige Vorgänge planen und ausführen kann, um die Videobearbeitungsziele des Benutzers zu erreichen. Dieses intelligente System bietet konzeptionelle Unterstützung, wie kreatives Brainstorming und Übersichten über Videomaterial, sowie operative Unterstützung, einschließlich semantikbasierter Videoabfrage, Storyboarding und Clip-Zuschnitt.

Um diese Agenten reibungslos zu betreiben, verwendet LAVE ein visuelles Sprachmodell (VLM), um automatisch Sprachbeschreibungen von visuellen Videoeffekten zu generieren. Diese visuellen Erzählungen ermöglichen es LLM, den Videoinhalt zu verstehen und seine Sprachfähigkeiten zu nutzen, um Benutzer bei der Bearbeitung zu unterstützen. Darüber hinaus bietet LAVE zwei interaktive Videobearbeitungsmodi, nämlich Agentenunterstützung und direkte Bedienung. Dieser Dualmodus bietet Benutzern eine größere Flexibilität, um den Betrieb des Agenten nach Bedarf zu verbessern.

Was den Bearbeitungseffekt von LAVE betrifft? Die Forscher führten eine Benutzerstudie mit 8 Teilnehmern durch, darunter Anfänger und erfahrene Redakteure, und die Ergebnisse zeigten, dass die Teilnehmer LAVE verwenden konnten, um zufriedenstellende kollaborative KI-Videos zu erstellen.

Es ist erwähnenswert, dass fünf der sechs Autoren dieser Studie Chinesen sind, darunter Yi Zuo, Bryan Wang, ein Doktorand der Informatik an der University of Toronto, die Metaforscher Yuliang Li, Zhaoyang Lv und Yan Xu , University of California, San Diego Assistenzprofessor Haijun Xia.

LAVE-Benutzeroberfläche (UI)

Werfen wir zunächst einen Blick auf das Systemdesign von LAVE, wie in Abbildung 1 unten dargestellt.

Die Benutzeroberfläche von LAVE besteht aus drei Hauptkomponenten:

Videobibliothek mit erweiterter Sprache, die Videoclips mit automatisch generierten Sprachbeschreibungen anzeigt; Zeitleiste des Clips; der
Video Clip Agent ermöglicht es dem Benutzer, mit einem Gesprächsagenten zu interagieren und Hilfe von ihm zu erhalten.
Die Designlogik ist folgende: Wenn der Benutzer mit dem Agenten interagiert, wird der Nachrichtenaustausch in der Chat-Benutzeroberfläche angezeigt. Dabei nimmt der Agent Änderungen an der Videobibliothek und der Clip-Timeline vor. Darüber hinaus können Benutzer die Videobibliothek und die Timeline direkt mit dem Cursor bedienen, ähnlich wie bei herkömmlichen Bearbeitungsoberflächen.

Als Sora die Videogenerierung in Gang setzte, begann Meta unter der Leitung chinesischer Autoren, Agent zu verwenden, um das Video automatisch zu schneiden Videobibliothek zur Sprachverbesserung

Die Funktionen der Videobibliothek zur Sprachverbesserung sind in Abbildung 3 unten dargestellt.

Wie herkömmliche Tools ermöglicht diese Funktion die Wiedergabe von Clips, bietet jedoch visuelle Kommentare, d. h. automatisch generierte Textbeschreibungen für jedes Video, einschließlich semantischer Titel und Zusammenfassungen. Die Titel helfen dabei, die Clips zu verstehen und zu indizieren, und die Zusammenfassungen bieten einen Überblick über den visuellen Inhalt jedes Clips und helfen Benutzern, die Handlung ihres Bearbeitungsprojekts zu gestalten. Unter jedem Video werden ein Titel und eine Dauer angezeigt.

Als Sora die Videogenerierung in Gang setzte, begann Meta unter der Leitung chinesischer Autoren, Agent zu verwenden, um das Video automatisch zu schneiden

Darüber hinaus ermöglicht LAVE Benutzern die Suche nach Videos mithilfe semantischer Sprachabfragen. Die abgerufenen Videos werden in der Videobibliothek angezeigt und nach Relevanz sortiert. Diese Funktion muss vom Clip Agent ausgeführt werden.

Videoclip-Zeitleiste

Nachdem Sie Videos aus der Videobibliothek ausgewählt und zur Clip-Zeitleiste hinzugefügt haben, werden sie auf der Videoclip-Zeitleiste am unteren Rand der Benutzeroberfläche angezeigt, wie in Abbildung 2 unten dargestellt . Jeder Clip auf der Timeline wird durch ein Feld dargestellt und zeigt drei Miniaturbilder an: das Startbild, das mittlere Bild und das Endbild.

Als Sora die Videogenerierung in Gang setzte, begann Meta unter der Leitung chinesischer Autoren, Agent zu verwenden, um das Video automatisch zu schneiden

Im LAVE-System repräsentiert jedes Miniaturbild eine Sekunde Material im Clip. Wie bei der Videogalerie werden für jeden Clip ein Titel und eine Beschreibung bereitgestellt. Die Clip-Timeline in LAVE verfügt über zwei Hauptfunktionen: Clip-Sortierung und -Trimmen.

Das Anordnen von Clips auf der Timeline ist eine häufige Aufgabe bei der Videobearbeitung und wichtig für die Erstellung einer zusammenhängenden Erzählung. LAVE unterstützt zwei Sortiermethoden, die auf der Storyboard-Funktion des Videoclip-Agenten basieren. Die andere ist die manuelle Sortierung, bei der jede Videobox per Drag-and-Drop sortiert wird Clips erscheinen.

Zuschneiden ist auch bei der Videobearbeitung wichtig, um wichtige Segmente hervorzuheben und überschüssigen Inhalt zu entfernen. Beim Zuschneiden doppelklickt der Benutzer auf den Clip in der Timeline, wodurch ein Popup-Fenster mit einsekündigen Frames geöffnet wird, wie in Abbildung 4 unten dargestellt.

Als Sora die Videogenerierung in Gang setzte, begann Meta unter der Leitung chinesischer Autoren, Agent zu verwenden, um das Video automatisch zu schneiden

Video Clip Agent

Der Video Clip Agent von LAVE ist eine chatbasierte Komponente, die die Interaktion zwischen Benutzern und LLM-basierten Agenten erleichtert. Im Gegensatz zu Befehlszeilentools können Benutzer mithilfe einer Freiformsprache mit Agenten interagieren. Der Agent nutzt die sprachliche Intelligenz von LLM, um Unterstützung bei der Videobearbeitung bereitzustellen und spezifische Antworten bereitzustellen, um den Benutzer durch den gesamten Bearbeitungsprozess zu führen und zu unterstützen. Die Agentenassistenzfunktionalität von LAVE wird durch Agentenoperationen bereitgestellt, bei denen jeweils eine systemgestützte Bearbeitungsfunktion ausgeführt wird.

Im Allgemeinen decken die von LAVE bereitgestellten Funktionen den gesamten Arbeitsablauf von der Ideenfindung und Vorplanung bis hin zu den eigentlichen Bearbeitungsvorgängen ab, das System schreibt jedoch keinen strikten Arbeitsablauf vor. Benutzer haben die Flexibilität, Teilmengen der Funktionalität zu nutzen, die ihren Bearbeitungszielen entsprechen. Beispielsweise können Benutzer mit einer klaren redaktionellen Vision und einer klaren Handlung die Ideenfindungsphase umgehen und direkt mit der Bearbeitung beginnen.

Backend-System

Diese Studie verwendet OpenAIs GPT-4, um das Design des LAVE-Backend-Systems zu veranschaulichen, das hauptsächlich zwei Aspekte umfasst: Agentendesign und Implementierung von Bearbeitungsfunktionen, die von LLM gesteuert werden.

Agentendesign

Diese Forschung nutzt die vielfältigen Sprachfunktionen von LLM (d. h. GPT-4), einschließlich Argumentation, Planung und Geschichtenerzählen, um den LAVE-Agenten zu erstellen.

LAVE-Agent hat zwei Zustände: Planung und Ausführung. Dieses Setup hat zwei Hauptvorteile:

ermöglicht es Benutzern, übergeordnete Ziele festzulegen, die mehrere Aktionen umfassen, sodass nicht wie bei herkömmlichen Befehlszeilentools jede einzelne Aktion detailliert beschrieben werden muss.
Vor der Ausführung präsentiert der Agent dem Benutzer den Plan, bietet Möglichkeiten zur Änderung und stellt sicher, dass der Benutzer die volle Kontrolle über den Betrieb des Agenten hat. Das Forschungsteam entwarf eine Back-End-Pipeline, um den Planungs- und Ausführungsprozess abzuschließen.

Wie in Abbildung 6 unten dargestellt, erstellt die Pipeline zunächst einen Aktionsplan basierend auf Benutzereingaben. Der Plan wird dann von einer textuellen Beschreibung in Funktionsaufrufe umgewandelt und die entsprechenden Funktionen werden dann ausgeführt.

Als Sora die Videogenerierung in Gang setzte, begann Meta unter der Leitung chinesischer Autoren, Agent zu verwenden, um das Video automatisch zu schneiden

Implementierung von LLM-gesteuerten Bearbeitungsfunktionen

Um Benutzern bei der Erledigung von Videobearbeitungsaufgaben zu helfen, unterstützt LAVE hauptsächlich fünf LLM-gesteuerte Funktionen, darunter:

Materialübersicht
Kreatives Brainstorming
Videoabruf
Storyboard
Clip-Zuschnitt

Die ersten vier davon können Der Zugriff erfolgt über den Agenten (Abbildung 5). Mit der Clip-Trimmfunktion können Sie durch Doppelklicken auf den Clip in der Timeline ein Popup-Fenster mit einsekündigen Frames öffnen (Abbildung 4).

Als Sora die Videogenerierung in Gang setzte, begann Meta unter der Leitung chinesischer Autoren, Agent zu verwenden, um das Video automatisch zu schneiden

Davon wird der sprachbasierte Videoabruf über eine Vektorspeicherdatenbank implementiert, und der Rest wird über LLM-Prompt-Engineering implementiert. Alle Funktionen basieren auf automatisch generierten verbalen Beschreibungen des Originalmaterials, einschließlich Titeln und Zusammenfassungen für jeden Clip in der Videobibliothek (Abbildung 3). Das Forschungsteam bezeichnet die Textbeschreibungen dieser Videos als visuelle Erzählung.

Als Sora die Videogenerierung in Gang setzte, begann Meta unter der Leitung chinesischer Autoren, Agent zu verwenden, um das Video automatisch zu schneiden

Interessierte Leser können den Originaltext des Artikels lesen, um mehr über den Forschungsinhalt zu erfahren.

Das obige ist der detaillierte Inhalt vonAls Sora die Videogenerierung in Gang setzte, begann Meta unter der Leitung chinesischer Autoren, Agent zu verwenden, um das Video automatisch zu schneiden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Will R.E.P.O. Crossplay haben?

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7548

CakePHP-Tutorial

1382

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Debian Mail Server Firewall -Konfigurationstipps Apr 13, 2025 am 11:42 AM

Das Konfigurieren der Firewall eines Debian -Mailservers ist ein wichtiger Schritt zur Gewährleistung der Serversicherheit. Im Folgenden sind mehrere häufig verwendete Firewall -Konfigurationsmethoden, einschließlich der Verwendung von Iptables und Firewalld. Verwenden Sie Iptables, um Firewall so zu konfigurieren, dass Iptables (falls bereits installiert) installiert werden:

Debian Mail Server SSL -Zertifikat -Installationsmethode Apr 13, 2025 am 11:39 AM

Die Schritte zur Installation eines SSL -Zertifikats auf dem Debian Mail -Server sind wie folgt: 1. Installieren Sie zuerst das OpenSSL -Toolkit und stellen Sie sicher, dass das OpenSSL -Toolkit bereits in Ihrem System installiert ist. Wenn nicht installiert, können Sie den folgenden Befehl installieren: sudoapt-getupdatesudoapt-getinstallopenssl2. Generieren Sie den privaten Schlüssel und die Zertifikatanforderung als nächst

CentOS Shutdown -Befehlszeile Apr 14, 2025 pm 09:12 PM

Der Befehl centOS stilldown wird heruntergefahren und die Syntax wird von [Optionen] ausgeführt [Informationen]. Zu den Optionen gehören: -h das System sofort stoppen; -P schalten Sie die Leistung nach dem Herunterfahren aus; -r neu starten; -t Wartezeit. Zeiten können als unmittelbar (jetzt), Minuten (Minuten) oder als bestimmte Zeit (HH: MM) angegeben werden. Hinzugefügten Informationen können in Systemmeldungen angezeigt werden.

Sony bestätigt die Möglichkeit, spezielle GPUs für PS5 Pro zu verwenden, um KI mit AMD zu entwickeln Apr 13, 2025 pm 11:45 PM

Mark Cerny, Chefarchitekt von SonyInteractiveStonterment (Siey Interactive Entertainment), hat weitere Hardware-Details der Host-PlayStation5pro (PS5PRO) der nächsten Generation veröffentlicht, darunter ein auf Performance verbessertes Amdrdna2.x-GPU und ein maschinelles Lernen/künstliches Intelligenzprogramm Code-genannt "Amethylst" mit Amd. Der Fokus der PS5PRO-Leistungsverbesserung liegt immer noch auf drei Säulen, darunter eine leistungsstärkere GPU, eine fortschrittliche Ray-Tracing und eine von KI betriebene PSSR-Superauflösung. GPU nimmt eine maßgeschneiderte AMDRDNA2 -Architektur an, die Sony RDNA2.x nennt, und es hat eine rDNA3 -Architektur.

Was sind die Backup -Methoden für Gitlab auf CentOS? Apr 14, 2025 pm 05:33 PM

Backup- und Wiederherstellungsrichtlinie von GitLab im Rahmen von CentOS -System Um die Datensicherheit und Wiederherstellung der Daten zu gewährleisten, bietet GitLab on CentOS eine Vielzahl von Sicherungsmethoden. In diesem Artikel werden mehrere gängige Sicherungsmethoden, Konfigurationsparameter und Wiederherstellungsprozesse im Detail eingeführt, um eine vollständige GitLab -Sicherungs- und Wiederherstellungsstrategie aufzubauen. 1. Manuell Backup Verwenden Sie den GitLab-RakegitLab: Backup: Befehl erstellen, um die manuelle Sicherung auszuführen. Dieser Befehl unterstützt wichtige Informationen wie GitLab Repository, Datenbank, Benutzer, Benutzergruppen, Schlüssel und Berechtigungen. Die Standardsicherungsdatei wird im Verzeichnis/var/opt/gitlab/backups gespeichert. Sie können /etc /gitlab ändern

Was sind die Methoden zur Abstimmung der Leistung von Zookeeper auf CentOS Apr 14, 2025 pm 03:18 PM

Die Zookeper -Leistungsstimmung auf CentOS kann von mehreren Aspekten beginnen, einschließlich Hardwarekonfiguration, Betriebssystemoptimierung, Konfigurationsparameteranpassung, Überwachung und Wartung usw. Hier finden Sie einige spezifische Tuning -Methoden: SSD wird für die Hardwarekonfiguration: Da die Daten von Zookeeper an Disk geschrieben werden, wird empfohlen, SSD zu verbessern, um die I/O -Leistung zu verbessern. Genug Memory: Zookeeper genügend Speicherressourcen zuweisen, um häufige Lesen und Schreiben von häufigen Festplatten zu vermeiden. Multi-Core-CPU: Verwenden Sie Multi-Core-CPU, um sicherzustellen, dass Zookeeper es parallel verarbeiten kann.

Wie man ein Pytorch -Modell auf CentOS trainiert Apr 14, 2025 pm 03:03 PM

Effizientes Training von Pytorch -Modellen auf CentOS -Systemen erfordert Schritte, und dieser Artikel bietet detaillierte Anleitungen. 1.. Es wird empfohlen, YUM oder DNF zu verwenden, um Python 3 und Upgrade PIP zu installieren: Sudoyumupdatepython3 (oder sudodnfupdatepython3), PIP3Install-upgradepip. CUDA und CUDNN (GPU -Beschleunigung): Wenn Sie Nvidiagpu verwenden, müssen Sie Cudatool installieren

So überprüfen Sie die CentOS -HDFS -Konfiguration Apr 14, 2025 pm 07:21 PM

Vollständige Anleitung zur Überprüfung der HDFS -Konfiguration in CentOS -Systemen In diesem Artikel wird die Konfiguration und den laufenden Status von HDFS auf CentOS -Systemen effektiv überprüft. Die folgenden Schritte helfen Ihnen dabei, das Setup und den Betrieb von HDFs vollständig zu verstehen. Überprüfen Sie die Hadoop -Umgebungsvariable: Stellen Sie zunächst sicher, dass die Hadoop -Umgebungsvariable korrekt eingestellt ist. Führen Sie im Terminal den folgenden Befehl aus, um zu überprüfen, ob Hadoop ordnungsgemäß installiert und konfiguriert ist: Hadoopsion-Check HDFS-Konfigurationsdatei: Die Kernkonfigurationsdatei von HDFS befindet sich im/etc/hadoop/conf/verzeichnis, wobei core-site.xml und hdfs-site.xml von entscheidender Bedeutung sind. verwenden

See all articles