Récemment, le domaine de la technologie vidéo IA a attiré beaucoup d'attention, en particulier le grand modèle de génération vidéo Sora lancé par OpenAI, qui a suscité de nombreuses discussions. Dans le même temps, dans le domaine du montage vidéo, les modèles d'IA à grande échelle tels que Agent ont également fait preuve d'une grande solidité.
Bien que le langage naturel soit utilisé pour gérer les tâches de montage vidéo, les utilisateurs peuvent exprimer directement leurs intentions sans opérations manuelles. Cependant, la plupart des outils de montage vidéo actuels nécessitent encore de nombreuses opérations manuelles et manquent de support contextuel personnalisé. Cela oblige les utilisateurs à résoudre eux-mêmes des problèmes de montage vidéo complexes.
La clé est de savoir comment concevoir un outil de montage vidéo capable d'agir en tant que collaborateur et d'assister en permanence les utilisateurs pendant le processus de montage ? Dans cet article, des chercheurs de l'Université de Toronto, Meta (Reality Labs Research) et de l'Université de Californie à San Diego proposent d'utiliser les capacités linguistiques multifonctionnelles des grands modèles de langage (LLM) pour le montage vidéo et d'explorer l'avenir. paradigme de montage vidéo, réduisant ainsi la frustration liée au processus de montage vidéo manuel.
Research L'auteur a développé un outil de montage vidéo appelé LAVE, qui intègre plusieurs fonctions d'amélioration du langage fournies par LLM. LAVE introduit un système intelligent de planification et d'exécution basé sur LLM, qui peut interpréter les instructions en langage libre de l'utilisateur, planifier et exécuter les opérations associées pour atteindre les objectifs de montage vidéo de l'utilisateur. Ce système intelligent fournit une assistance conceptuelle, telle qu'un brainstorming créatif et des aperçus de séquences vidéo, ainsi qu'une assistance opérationnelle, notamment la récupération vidéo basée sur la sémantique, le storyboard et le découpage de clips.
Afin de faire fonctionner ces agents en douceur, LAVE utilise un modèle de langage visuel (VLM) pour générer automatiquement des descriptions linguistiques des effets visuels vidéo. Ces récits visuels permettent à LLM de comprendre le contenu vidéo et d'utiliser ses capacités linguistiques pour aider les utilisateurs dans le montage. De plus, LAVE propose deux modes de montage vidéo interactifs, à savoir l'assistance aux agents et le fonctionnement direct. Ce double mode offre aux utilisateurs une plus grande flexibilité pour améliorer le fonctionnement de l'agent selon les besoins.
Quant à l'effet d'édition de LAVE ? Les chercheurs ont mené une étude utilisateur auprès de 8 participants, dont des éditeurs novices et expérimentés, et les résultats ont montré que les participants pouvaient utiliser LAVE pour créer des vidéos collaboratives IA satisfaisantes.
Il est à noter que 5 des six auteurs de cette étude sont chinois, dont Yi Zuo, Bryan Wang, doctorant en informatique à l'Université de Toronto, les chercheurs Meta Yuliang Li, Zhaoyang Lv et Yan Xu. , Université de Californie, San Diego Professeur adjoint Haijun Xia.
Examinons d'abord la conception du système de LAVE, comme le montre la figure 1 ci-dessous. L'interface utilisateur de
LAVE se compose de trois composants principaux, comme suit :
La logique de conception est la suivante : lorsque l'utilisateur interagit avec l'agent, l'échange de messages sera affiché dans l'interface utilisateur du chat. Ce faisant, l’agent apporte des modifications à la bibliothèque vidéo et à la chronologie du clip. De plus, les utilisateurs peuvent utiliser directement la vidéothèque et la chronologie à l'aide du curseur, à l'instar des interfaces d'édition traditionnelles.
Bibliothèque vidéo d'amélioration du langage
Les fonctions de la vidéothèque d'amélioration du langage sont illustrées dans la figure 3 ci-dessous.
Comme les outils traditionnels, cette fonctionnalité permet la lecture de clips mais fournit une narration visuelle, c'est-à-dire des descriptions textuelles générées automatiquement pour chaque vidéo, comprenant des titres sémantiques et des résumés. Les titres aident à comprendre et à indexer les clips, et les résumés fournissent un aperçu du contenu visuel de chaque clip, aidant ainsi les utilisateurs à former le scénario de leur projet de montage. Un titre et une durée apparaissent sous chaque vidéo.
De plus, LAVE permet aux utilisateurs de rechercher des vidéos à l'aide de requêtes en langage sémantique, et les vidéos récupérées sont affichées dans la vidéothèque et triées par pertinence. Cette fonction doit être exécutée par le Clip Agent.
Chronologie du clip vidéo
Après avoir sélectionné les vidéos dans la vidéothèque et les avoir ajoutées à la chronologie du clip, elles seront affichées sur la chronologie du clip vidéo en bas de l'interface, comme le montre la figure 2 ci-dessous. . Chaque clip sur la timeline est représenté par une boîte et affiche trois images miniatures : l'image de début, l'image du milieu et l'image de fin.
Dans le système LAVE, chaque image miniature représente une seconde de contenu dans le clip. Comme pour la galerie vidéo, un titre et une description sont fournis pour chaque clip. La chronologie des clips dans LAVE comporte deux fonctionnalités clés : le tri et le découpage des clips.
Le séquençage des clips sur la timeline est une tâche courante dans le montage vidéo et est important pour créer un récit cohérent. LAVE prend en charge deux méthodes de tri : l'une est le tri basé sur LLM, qui utilise la fonction de storyboard de l'agent de clip vidéo, l'autre est le tri manuel, qui est trié par opération directe de l'utilisateur. des clips apparaissent.
Le découpage est également important dans le montage vidéo pour mettre en évidence les segments clés et supprimer le contenu en excès. Lors du découpage, l'utilisateur double-clique sur le clip dans la timeline, ce qui ouvre une fenêtre contextuelle affichant des images d'une seconde, comme le montre la figure 4 ci-dessous.
Video Clip Agent
Video Clip Agent de LAVE est un composant basé sur le chat qui facilite l'interaction entre les utilisateurs et les agents basés sur LLM. Contrairement aux outils de ligne de commande, les utilisateurs peuvent interagir avec les agents en utilisant un langage libre. L'agent exploite l'intelligence linguistique de LLM pour fournir une assistance au montage vidéo et fournir des réponses spécifiques pour guider et assister l'utilisateur tout au long du processus de montage. Les capacités d'assistance aux agents de LAVE sont fournies par le biais d'opérations d'agent, dont chacune implique l'exécution d'une fonction d'édition prise en charge par le système.
En général, LAVE fournit des fonctionnalités qui couvrent l'ensemble du flux de travail, depuis l'idéation et la pré-planification jusqu'aux opérations d'édition réelles, mais le système n'impose pas un flux de travail strict. Les utilisateurs ont la possibilité d'exploiter des sous-ensembles de fonctionnalités qui correspondent à leurs objectifs d'édition. Par exemple, les utilisateurs ayant une vision éditoriale claire et un scénario clair peuvent contourner la phase d’idéation et passer directement à l’édition.
Cette étude utilise GPT-4 d'OpenAI pour illustrer la conception du système backend LAVE, qui comprend principalement deux aspects : la conception d'agents et la mise en œuvre de fonctions d'édition pilotées par LLM.
Agent Design
Cette recherche exploite les multiples capacités linguistiques du LLM (c'est-à-dire GPT-4), y compris le raisonnement, la planification et la narration, pour créer l'agent LAVE.
L'agent LAVE a deux états : planification et exécution. Cette configuration présente deux avantages principaux :
Comme le montre la figure 6 ci-dessous, le pipeline crée d'abord un plan d'action basé sur les entrées de l'utilisateur. Le plan est ensuite converti d'une description textuelle en appels de fonction, et les fonctions correspondantes sont ensuite exécutées.
Mise en œuvre des fonctions d'édition pilotées par LLM
Pour aider les utilisateurs à effectuer les tâches de montage vidéo, LAVE prend principalement en charge cinq fonctions pilotées par LLM, notamment :
Les quatre premiers peuvent être accessible via l'agent (Figure 5), le La fonction de découpage de clip peut ouvrir une fenêtre contextuelle affichant des images d'une seconde en double-cliquant sur le clip dans la timeline (Figure 4).
Parmi eux, la récupération vidéo basée sur le langage est implémentée via une base de données de stockage vectoriel, et le reste est implémenté via l'ingénierie d'invite LLM. Toutes les fonctionnalités sont construites sur des descriptions verbales générées automatiquement des séquences originales, y compris des titres et des résumés pour chaque clip de la vidéothèque (Figure 3). L’équipe de recherche appelle les descriptions textuelles de ces vidéos narration visuelle.
Les lecteurs intéressés peuvent lire le texte original de l'article pour en savoir plus sur le contenu de la recherche.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!