Depuis la sortie de Sora, le domaine de la génération vidéo IA est devenu plus « occupé ». Au cours des derniers mois, nous avons vu Jimeng, Runway Gen-3, Luma AI et Kuaishou Keling exploser à tour de rôle. Contrairement aux modèles précédents qui peuvent être identifiés en un coup d'œil comme générés par l'IA, ce lot de grands modèles vidéo est peut-être le "meilleur" que nous ayons jamais vu. Cependant, derrière les performances étonnantes du modèle vidéo en grand langage (LLM) se cache un ensemble de données vidéo énormes et finement annotées, ce qui nécessite un coût très élevé. Récemment, un certain nombre de méthodes innovantes sont apparues dans le domaine de la recherche qui ne nécessitent pas de formation supplémentaire : utiliser de grands modèles de langage d'images entraînés pour traiter directement les tâches vidéo, contournant ainsi le processus de formation « coûteux ». De plus, la plupart des LLM vidéo existants souffrent de deux inconvénients majeurs : (1) ils ne peuvent gérer l'entrée vidéo qu'avec un nombre limité d'images, ce qui rend difficile pour le modèle de capturer le contenu spatial et temporel subtil dans la vidéo ; (2) ils manquent de conception de modélisation temporelle, mais entrent simplement des fonctionnalités vidéo dans LLM, en s'appuyant entièrement sur la capacité de LLM à modéliser le mouvement. En réponse aux problèmes ci-dessus, Les chercheurs d'Apple ont proposé SlowFast-LLaVA (SF-LLaVA en abrégé). Ce modèle est basé sur l'architecture LLaVA-NeXT développée par l'équipe Byte. Il ne nécessite aucun réglage supplémentaire et peut être utilisé immédiatement. Inspirée par le réseau à deux flux réussi dans le domaine de la reconnaissance d'action, l'équipe de recherche a conçu un nouveau mécanisme d'entrée SlowFast pour le LLM vidéo. En termes simples, SF-LLaVA comprendra les détails et le mouvement de la vidéo grâce à deux vitesses d'observation différentes (lente et rapide).
- Chemin lent : extraire les fonctionnalités à des fréquences d'images faibles tout en conservant autant de détails spatiaux que possible (par exemple, conserver 24 × 24 jetons toutes les 8 images)
- Chemin rapide : exécuter à des fréquences d'images élevées, mais utiliser un pas de pooling spatial plus grand pour réduire la résolution de la vidéo afin de simuler un contexte temporel plus large et de se concentrer davantage sur la compréhension de la cohérence des actions
Cela équivaut au modèle ayant deux "yeux" : un Il suffit de regarder lentement et prêter attention aux détails ; l’autre consiste à regarder rapidement et à prêter attention aux mouvements. Cela résout les problèmes de la plupart des LLM vidéo existants et peut capturer à la fois une sémantique spatiale détaillée et un contexte temporel plus long.
Lien papier : https://arxiv.org/pdf/2407.15841
Les résultats expérimentaux montrent que SF-LLaVA surpasse les méthodes sans formation existantes par des avantages significatifs dans tous les tests de référence. Comparé aux modèles SFT soigneusement réglés, le SF-LLaVA atteint les mêmes performances, voire mieux.
Comme le montre la figure ci-dessous, SF-LLaVA suit le processus LLM vidéo standard sans formation. Il prend une vidéo V et une question Q en entrée et génère la réponse correspondante A.
For the input, N frames are uniformly sampled from each video of any size and length, I = {I_1, I_2, ..., I_N}, and no special combination or arrangement of the selected video frames is required. The independently extracted frequency feature in the frame unit is F_v ∈ R^N×H×W, where H and W are the height and width of the frame feature respectively. The next step involves further processing F_v in both slow and fast paths and combining them as an effective video representation. The slow path uniformly samples the frame features of from F_v, where . Previous research has found that appropriate pooling in the spatial dimension can improve the efficiency and robustness of video generation. Therefore, the research team applied a pooling process with a step size of σ_h×σ_w on F_v to obtain the final feature: , where , . The entire process of the slow path is shown in Equation 2.
The fast path preserves all frame features in F_v to capture as much of the long-range temporal context of the video as possible. Specifically, the research team uses a spatial pooling step size to aggressively downsample F_v to obtain the final feature . The research team set up , so that the fast path can focus on simulating temporal context and motion cues. The entire process of the slow path is shown in Equation 3.
Finally, the aggregated video features are obtained: , where flat and [, ] represent flattening and concatenation operations respectively. As the expression shows, does not require any special token to separate slow and fast paths. SF-LLaVA uses a total of video tokens. The visual features of the video will be combined with textual information (such as questions asked by users) and sent as input data to a large language model (LLM) for processing. SlowFast process is shown in Equation 4.
The research team conducted a comprehensive performance evaluation of SF-LLaVA, comparing it with current SOTA training-free models (such as IG-VLM and LLoVi) in multiple video question answering tasks. Furthermore, they compared it with video LLMs such as VideoLLaVA and PLLaVA that were supervised fine-tuned (SFT) on video datasets. Open Video Question AnsweringAs shown in the table below, in the open video question answering task, SF-LLaVA performs better than existing training-free methods in all benchmarks. Specifically, when equipped with LLMs of 7B and 34B parameter sizes respectively, SF-LLaVA is 2.1% and 5.0% higher than IGVLM on MSRVTT-QA, 5.7% and 1.5% higher on TGIF-QA, and 5.7% and 1.5% higher on ActivityNet. -2.0% and 0.8% higher on QA. Even compared to the fine-tuned SFT method, SF-LLaVA shows comparable performance in most benchmarks, only on the ActivityNet-QA benchmark, PLLaVA and LLaVA-NeXT-VideoDPO slightly outperform One chip.
Multiple Choice Video Q&AAs can be seen from the table below, SF-LLaVA outperforms other training-free methods in multiple choice video Q&A in all benchmarks. In the EgoSchema dataset, which requires complex long-term reasoning, the SF-LLaVA7B and 34B versions scored 11.4% and 2.2% higher than the IG-VLM model, respectively. While VideoTree leads in the benchmarks because it is a proprietary model based on GPT-4, the performance is much higher than open source LLM. The SF-LLaVA 34B model also achieves better results on EgoSchema compared to the SFT method, which confirms the power of the SlowFast design in handling long videos.
As shown in Table 3, for the task of text generation video, SF-LLaVA also shows some advantages. The SF-LLaVA-34B exceeded all training-free benchmarks in overall performance. Although in terms of detail orientation, SF-LLaVA is slightly inferior to LLaVA-NeXT-Image. Based on the SlowFast design, SF-LLaVA can cover longer temporal context with fewer visual tokens, and therefore performs particularly well in temporal understanding tasks. In addition, SF-LLaVA-34B also outperforms most SFT methods in terms of Vincent video performance.
For more details, please refer to the original paper. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!