Table des matières
Interface utilisateur (UI) de LAVE
Système backend
Maison Périphériques technologiques IA Lorsque Sora a fait exploser la génération vidéo, Meta a commencé à utiliser Agent pour couper automatiquement la vidéo, dirigé par des auteurs chinois.

Lorsque Sora a fait exploser la génération vidéo, Meta a commencé à utiliser Agent pour couper automatiquement la vidéo, dirigé par des auteurs chinois.

Feb 20, 2024 pm 03:50 PM
视频 ai 视频编辑

Récemment, le domaine de la technologie vidéo IA a attiré beaucoup d'attention, en particulier le grand modèle de génération vidéo Sora lancé par OpenAI, qui a suscité de nombreuses discussions. Dans le même temps, dans le domaine du montage vidéo, les modèles d'IA à grande échelle tels que Agent ont également fait preuve d'une grande solidité.

Bien que le langage naturel soit utilisé pour gérer les tâches de montage vidéo, les utilisateurs peuvent exprimer directement leurs intentions sans opérations manuelles. Cependant, la plupart des outils de montage vidéo actuels nécessitent encore de nombreuses opérations manuelles et manquent de support contextuel personnalisé. Cela oblige les utilisateurs à résoudre eux-mêmes des problèmes de montage vidéo complexes.

La clé est de savoir comment concevoir un outil de montage vidéo capable d'agir en tant que collaborateur et d'assister en permanence les utilisateurs pendant le processus de montage ? Dans cet article, des chercheurs de l'Université de Toronto, Meta (Reality Labs Research) et de l'Université de Californie à San Diego proposent d'utiliser les capacités linguistiques multifonctionnelles des grands modèles de langage (LLM) pour le montage vidéo et d'explorer l'avenir. paradigme de montage vidéo, réduisant ainsi la frustration liée au processus de montage vidéo manuel.

Lorsque Sora a fait exploser la génération vidéo, Meta a commencé à utiliser Agent pour couper automatiquement la vidéo, dirigé par des auteurs chinois.

  • Titre de l'article : LAVE : LLM-Powered Agent Assistance and Language Augmentation for Video Editing
  • Adresse de l'article : https://arxiv.org/pdf/2402.10294.pdf

Research L'auteur a développé un outil de montage vidéo appelé LAVE, qui intègre plusieurs fonctions d'amélioration du langage fournies par LLM. LAVE introduit un système intelligent de planification et d'exécution basé sur LLM, qui peut interpréter les instructions en langage libre de l'utilisateur, planifier et exécuter les opérations associées pour atteindre les objectifs de montage vidéo de l'utilisateur. Ce système intelligent fournit une assistance conceptuelle, telle qu'un brainstorming créatif et des aperçus de séquences vidéo, ainsi qu'une assistance opérationnelle, notamment la récupération vidéo basée sur la sémantique, le storyboard et le découpage de clips.

Afin de faire fonctionner ces agents en douceur, LAVE utilise un modèle de langage visuel (VLM) pour générer automatiquement des descriptions linguistiques des effets visuels vidéo. Ces récits visuels permettent à LLM de comprendre le contenu vidéo et d'utiliser ses capacités linguistiques pour aider les utilisateurs dans le montage. De plus, LAVE propose deux modes de montage vidéo interactifs, à savoir l'assistance aux agents et le fonctionnement direct. Ce double mode offre aux utilisateurs une plus grande flexibilité pour améliorer le fonctionnement de l'agent selon les besoins.

Quant à l'effet d'édition de LAVE ? Les chercheurs ont mené une étude utilisateur auprès de 8 participants, dont des éditeurs novices et expérimentés, et les résultats ont montré que les participants pouvaient utiliser LAVE pour créer des vidéos collaboratives IA satisfaisantes.

Il est à noter que 5 des six auteurs de cette étude sont chinois, dont Yi Zuo, Bryan Wang, doctorant en informatique à l'Université de Toronto, les chercheurs Meta Yuliang Li, Zhaoyang Lv et Yan Xu. , Université de Californie, San Diego Professeur adjoint Haijun Xia.

Interface utilisateur (UI) de LAVE

Examinons d'abord la conception du système de LAVE, comme le montre la figure 1 ci-dessous. L'interface utilisateur de

LAVE se compose de trois composants principaux, comme suit :

  • Bibliothèque de vidéos linguistiquement améliorée, qui affiche des clips vidéo avec des descriptions de langue générées automatiquement 
  • Chronologie de clips vidéo, y compris basée sur la langue principale ; la chronologie du clip ; le
  • Video Clip Agent permet à l'utilisateur d'interagir avec un agent conversationnel et d'obtenir de l'aide.

La logique de conception est la suivante : lorsque l'utilisateur interagit avec l'agent, l'échange de messages sera affiché dans l'interface utilisateur du chat. Ce faisant, l’agent apporte des modifications à la bibliothèque vidéo et à la chronologie du clip. De plus, les utilisateurs peuvent utiliser directement la vidéothèque et la chronologie à l'aide du curseur, à l'instar des interfaces d'édition traditionnelles.

Lorsque Sora a fait exploser la génération vidéo, Meta a commencé à utiliser Agent pour couper automatiquement la vidéo, dirigé par des auteurs chinois.

Bibliothèque vidéo d'amélioration du langage

Les fonctions de la vidéothèque d'amélioration du langage sont illustrées dans la figure 3 ci-dessous.

Comme les outils traditionnels, cette fonctionnalité permet la lecture de clips mais fournit une narration visuelle, c'est-à-dire des descriptions textuelles générées automatiquement pour chaque vidéo, comprenant des titres sémantiques et des résumés. Les titres aident à comprendre et à indexer les clips, et les résumés fournissent un aperçu du contenu visuel de chaque clip, aidant ainsi les utilisateurs à former le scénario de leur projet de montage. Un titre et une durée apparaissent sous chaque vidéo.

Lorsque Sora a fait exploser la génération vidéo, Meta a commencé à utiliser Agent pour couper automatiquement la vidéo, dirigé par des auteurs chinois.

De plus, LAVE permet aux utilisateurs de rechercher des vidéos à l'aide de requêtes en langage sémantique, et les vidéos récupérées sont affichées dans la vidéothèque et triées par pertinence. Cette fonction doit être exécutée par le Clip Agent.

Chronologie du clip vidéo

Après avoir sélectionné les vidéos dans la vidéothèque et les avoir ajoutées à la chronologie du clip, elles seront affichées sur la chronologie du clip vidéo en bas de l'interface, comme le montre la figure 2 ci-dessous. . Chaque clip sur la timeline est représenté par une boîte et affiche trois images miniatures : l'image de début, l'image du milieu et l'image de fin.

Lorsque Sora a fait exploser la génération vidéo, Meta a commencé à utiliser Agent pour couper automatiquement la vidéo, dirigé par des auteurs chinois.

Dans le système LAVE, chaque image miniature représente une seconde de contenu dans le clip. Comme pour la galerie vidéo, un titre et une description sont fournis pour chaque clip. La chronologie des clips dans LAVE comporte deux fonctionnalités clés : le tri et le découpage des clips.

Le séquençage des clips sur la timeline est une tâche courante dans le montage vidéo et est important pour créer un récit cohérent. LAVE prend en charge deux méthodes de tri : l'une est le tri basé sur LLM, qui utilise la fonction de storyboard de l'agent de clip vidéo, l'autre est le tri manuel, qui est trié par opération directe de l'utilisateur. des clips apparaissent.

Le découpage est également important dans le montage vidéo pour mettre en évidence les segments clés et supprimer le contenu en excès. Lors du découpage, l'utilisateur double-clique sur le clip dans la timeline, ce qui ouvre une fenêtre contextuelle affichant des images d'une seconde, comme le montre la figure 4 ci-dessous.

Lorsque Sora a fait exploser la génération vidéo, Meta a commencé à utiliser Agent pour couper automatiquement la vidéo, dirigé par des auteurs chinois.

Video Clip Agent

Video Clip Agent de LAVE est un composant basé sur le chat qui facilite l'interaction entre les utilisateurs et les agents basés sur LLM. Contrairement aux outils de ligne de commande, les utilisateurs peuvent interagir avec les agents en utilisant un langage libre. L'agent exploite l'intelligence linguistique de LLM pour fournir une assistance au montage vidéo et fournir des réponses spécifiques pour guider et assister l'utilisateur tout au long du processus de montage. Les capacités d'assistance aux agents de LAVE sont fournies par le biais d'opérations d'agent, dont chacune implique l'exécution d'une fonction d'édition prise en charge par le système.

En général, LAVE fournit des fonctionnalités qui couvrent l'ensemble du flux de travail, depuis l'idéation et la pré-planification jusqu'aux opérations d'édition réelles, mais le système n'impose pas un flux de travail strict. Les utilisateurs ont la possibilité d'exploiter des sous-ensembles de fonctionnalités qui correspondent à leurs objectifs d'édition. Par exemple, les utilisateurs ayant une vision éditoriale claire et un scénario clair peuvent contourner la phase d’idéation et passer directement à l’édition.

Système backend

Cette étude utilise GPT-4 d'OpenAI pour illustrer la conception du système backend LAVE, qui comprend principalement deux aspects : la conception d'agents et la mise en œuvre de fonctions d'édition pilotées par LLM.

Agent Design

Cette recherche exploite les multiples capacités linguistiques du LLM (c'est-à-dire GPT-4), y compris le raisonnement, la planification et la narration, pour créer l'agent LAVE.

L'agent LAVE a deux états : planification et exécution. Cette configuration présente deux avantages principaux :

  • permet aux utilisateurs de définir des objectifs de haut niveau contenant plusieurs actions, éliminant ainsi le besoin de détailler chaque action individuelle comme les outils de ligne de commande traditionnels.
  • Avant l'exécution, l'agent présentera le plan à l'utilisateur, offrant des possibilités de modification et garantissant que l'utilisateur a un contrôle total sur le fonctionnement de l'agent. L'équipe de recherche a conçu un pipeline back-end pour compléter le processus de planification et d'exécution.

Comme le montre la figure 6 ci-dessous, le pipeline crée d'abord un plan d'action basé sur les entrées de l'utilisateur. Le plan est ensuite converti d'une description textuelle en appels de fonction, et les fonctions correspondantes sont ensuite exécutées.

Lorsque Sora a fait exploser la génération vidéo, Meta a commencé à utiliser Agent pour couper automatiquement la vidéo, dirigé par des auteurs chinois.

Mise en œuvre des fonctions d'édition pilotées par LLM

Pour aider les utilisateurs à effectuer les tâches de montage vidéo, LAVE prend principalement en charge cinq fonctions pilotées par LLM, notamment :

  • Aperçu du matériel
  • Brainstorming créatif
  • Récupération vidéo
  • Storyboard
  • Découpage de clips

Les quatre premiers peuvent être accessible via l'agent (Figure 5), le La fonction de découpage de clip peut ouvrir une fenêtre contextuelle affichant des images d'une seconde en double-cliquant sur le clip dans la timeline (Figure 4).

Lorsque Sora a fait exploser la génération vidéo, Meta a commencé à utiliser Agent pour couper automatiquement la vidéo, dirigé par des auteurs chinois.

Parmi eux, la récupération vidéo basée sur le langage est implémentée via une base de données de stockage vectoriel, et le reste est implémenté via l'ingénierie d'invite LLM. Toutes les fonctionnalités sont construites sur des descriptions verbales générées automatiquement des séquences originales, y compris des titres et des résumés pour chaque clip de la vidéothèque (Figure 3). L’équipe de recherche appelle les descriptions textuelles de ces vidéos narration visuelle.

Lorsque Sora a fait exploser la génération vidéo, Meta a commencé à utiliser Agent pour couper automatiquement la vidéo, dirigé par des auteurs chinois.

Lorsque Sora a fait exploser la génération vidéo, Meta a commencé à utiliser Agent pour couper automatiquement la vidéo, dirigé par des auteurs chinois.

Les lecteurs intéressés peuvent lire le texte original de l'article pour en savoir plus sur le contenu de la recherche.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Pourquoi est-il nécessaire de passer des pointeurs lors de l'utilisation de bibliothèques Go et Viper? Pourquoi est-il nécessaire de passer des pointeurs lors de l'utilisation de bibliothèques Go et Viper? Apr 02, 2025 pm 04:00 PM

GO POINTER SYNTAXE ET ATTENDRE DES PROBLÈMES DANS LA BIBLIOTHÈQUE VIPER Lors de la programmation en langage Go, il est crucial de comprendre la syntaxe et l'utilisation des pointeurs, en particulier dans ...

Comment rendre les données publiques disponibles pour tous les contrôleurs du framework Go Gin? Comment rendre les données publiques disponibles pour tous les contrôleurs du framework Go Gin? Apr 02, 2025 am 10:21 AM

Comment faire en sorte que tous les contrôleurs obtiennent des données publiques dans le framework Gogin? Utilisation de Go ...

GO Language Slice: Pourquoi ne signale-t-il pas une erreur lorsque l'indice de tranche à élément unique 1 interception? GO Language Slice: Pourquoi ne signale-t-il pas une erreur lorsque l'indice de tranche à élément unique 1 interception? Apr 02, 2025 pm 02:24 PM

GO Language Slice Index: Pourquoi une tranche à élément unique intercepte-t-elle de l'index 1 sans erreur? En langue GO, les tranches sont une structure de données flexible qui peut se référer au bas ...

Comment implémenter des opérations sur les listes liées Linux Iptables à Golang? Comment implémenter des opérations sur les listes liées Linux Iptables à Golang? Apr 02, 2025 am 10:18 AM

Utilisation de Golang pour implémenter Linux ...

Pourquoi toutes les valeurs deviennent-elles le dernier élément lors de l'utilisation de la plage dans le langage GO pour traverser les tranches et stocker des cartes? Pourquoi toutes les valeurs deviennent-elles le dernier élément lors de l'utilisation de la plage dans le langage GO pour traverser les tranches et stocker des cartes? Apr 02, 2025 pm 04:09 PM

Pourquoi l'itération de la carte dans GO fait-elle que toutes les valeurs deviennent le dernier élément? En langue go, face à des questions d'entrevue, vous rencontrez souvent des cartes ...

GO Language Slice Index: Pourquoi l'interception de la tranche à élément unique ne va-t-elle pas au-delà des limites? GO Language Slice Index: Pourquoi l'interception de la tranche à élément unique ne va-t-elle pas au-delà des limites? Apr 02, 2025 pm 02:36 PM

Exploration du problème de l'indice de tranchage GO de GO: tranche à élément unique interceptant dans GO, les tranches sont une structure de données flexible qui peut être utilisée pour les tableaux ou autres ...

Comment importer correctement les packages personnalisés sous les modules GO? Comment importer correctement les packages personnalisés sous les modules GO? Apr 02, 2025 pm 03:42 PM

Dans le développement du langage GO, l'introduction correctement des packages personnalisés est une étape cruciale. Cet article ciblera "Golang ...

Comportement de la concurrence du langage GO sans tamponner les canaux: pourquoi y a-t-il deux possibilités d'exécution des résultats? Comportement de la concurrence du langage GO sans tamponner les canaux: pourquoi y a-t-il deux possibilités d'exécution des résultats? Apr 02, 2025 am 10:24 AM

Les caractéristiques non bloquantes et le comportement simultané des canaux de langue GO analyseront en détail les résultats de l'opération d'un code de langue GO lors de l'utilisation du canal et expliquent le ...

See all articles