Maison > Périphériques technologiques > IA > le corps du texte

Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation d'Apple surpasse tout SOTA en quelques secondes

WBOY
Libérer: 2024-08-11 16:02:31
original
376 Les gens l'ont consulté
Depuis la sortie de Sora, le domaine de la génération vidéo IA est devenu plus « occupé ». Au cours des derniers mois, nous avons vu Jimeng, Runway Gen-3, Luma AI et Kuaishou Keling exploser à tour de rôle.

Contrairement aux modèles précédents qui peuvent être identifiés en un coup d'œil comme générés par l'IA, ce lot de grands modèles vidéo est peut-être le "meilleur" que nous ayons jamais vu.

Cependant, derrière les performances étonnantes du modèle vidéo en grand langage (LLM) se cache un ensemble de données vidéo énormes et finement annotées, ce qui nécessite un coût très élevé. Récemment, un certain nombre de méthodes innovantes sont apparues dans le domaine de la recherche qui ne nécessitent pas de formation supplémentaire : utiliser de grands modèles de langage d'images entraînés pour traiter directement les tâches vidéo, contournant ainsi le processus de formation « coûteux ».

De plus, la plupart des LLM vidéo existants souffrent de deux inconvénients majeurs : (1) ils ne peuvent gérer l'entrée vidéo qu'avec un nombre limité d'images, ce qui rend difficile pour le modèle de capturer le contenu spatial et temporel subtil dans la vidéo ; (2) ils manquent de conception de modélisation temporelle, mais entrent simplement des fonctionnalités vidéo dans LLM, en s'appuyant entièrement sur la capacité de LLM à modéliser le mouvement.

En réponse aux problèmes ci-dessus, Les chercheurs d'Apple ont proposé SlowFast-LLaVA (SF-LLaVA en abrégé). Ce modèle est basé sur l'architecture LLaVA-NeXT développée par l'équipe Byte. Il ne nécessite aucun réglage supplémentaire et peut être utilisé immédiatement. Inspirée par le réseau à deux flux réussi dans le domaine de la reconnaissance d'action, l'équipe de recherche a conçu un nouveau mécanisme d'entrée SlowFast pour le LLM vidéo.

En termes simples, SF-LLaVA comprendra les détails et le mouvement de la vidéo grâce à deux vitesses d'observation différentes (lente et rapide).

  • Chemin lent : extraire les fonctionnalités à des fréquences d'images faibles tout en conservant autant de détails spatiaux que possible (par exemple, conserver 24 × 24 jetons toutes les 8 images)
  • Chemin rapide : exécuter à des fréquences d'images élevées, mais utiliser un pas de pooling spatial plus grand pour réduire la résolution de la vidéo afin de simuler un contexte temporel plus large et de se concentrer davantage sur la compréhension de la cohérence des actions

Cela équivaut au modèle ayant deux "yeux" : un Il suffit de regarder lentement et prêter attention aux détails ; l’autre consiste à regarder rapidement et à prêter attention aux mouvements. Cela résout les problèmes de la plupart des LLM vidéo existants et peut capturer à la fois une sémantique spatiale détaillée et un contexte temporel plus long.

Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes

Lien papier : https://arxiv.org/pdf/2407.15841

Les résultats expérimentaux montrent que SF-LLaVA surpasse les méthodes sans formation existantes par des avantages significatifs dans tous les tests de référence. Comparé aux modèles SFT soigneusement réglés, le SF-LLaVA atteint les mêmes performances, voire mieux.

Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes

Architecture du modèle

Comme le montre la figure ci-dessous, SF-LLaVA suit le processus LLM vidéo standard sans formation. Il prend une vidéo V et une question Q en entrée et génère la réponse correspondante A.

Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes

For the input, N frames are uniformly sampled from each video of any size and length, I = {I_1, I_2, ..., I_N}, and no special combination or arrangement of the selected video frames is required. The independently extracted frequency feature in the frame unit is F_v ∈ R^N×H×W, where H and W are the height and width of the frame feature respectively.

The next step involves further processing F_v in both slow and fast paths and combining them as an effective video representation. The slow path uniformly samples the frame features of Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes from F_v, where Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes.

Previous research has found that appropriate pooling in the spatial dimension can improve the efficiency and robustness of video generation. Therefore, the research team applied a pooling process with a step size of σ_h×σ_w on F_v to obtain the final feature: Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes, where Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes, Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes. The entire process of the slow path is shown in Equation 2.

Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes

The fast path preserves all frame features in F_v to capture as much of the long-range temporal context of the video as possible. Specifically, the research team uses a spatial pooling step size Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes to aggressively downsample F_v to obtain the final feature Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes. The research team set up Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes, Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes so that the fast path can focus on simulating temporal context and motion cues. The entire process of the slow path is shown in Equation 3.

Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes

Finally, the aggregated video features are obtained: Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes, where flat and [, ] represent flattening and concatenation operations respectively. As the expression shows, Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes does not require any special token to separate slow and fast paths. SF-LLaVA uses a total of Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes video tokens. The visual features of the video Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes will be combined with textual information (such as questions asked by users) and sent as input data to a large language model (LLM) for processing.

SlowFast process is shown in Equation 4.

Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes

Experimental results

The research team conducted a comprehensive performance evaluation of SF-LLaVA, comparing it with current SOTA training-free models (such as IG-VLM and LLoVi) in multiple video question answering tasks. Furthermore, they compared it with video LLMs such as VideoLLaVA and PLLaVA that were supervised fine-tuned (SFT) on video datasets.

Open Video Question Answering

As shown in the table below, in the open video question answering task, SF-LLaVA performs better than existing training-free methods in all benchmarks. Specifically, when equipped with LLMs of 7B and 34B parameter sizes respectively, SF-LLaVA is 2.1% and 5.0% higher than IGVLM on MSRVTT-QA, 5.7% and 1.5% higher on TGIF-QA, and 5.7% and 1.5% higher on ActivityNet. -2.0% and 0.8% higher on QA.

Even compared to the fine-tuned SFT method, SF-LLaVA shows comparable performance in most benchmarks, only on the ActivityNet-QA benchmark, PLLaVA and LLaVA-NeXT-VideoDPO slightly outperform One chip.

Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes

Multiple Choice Video Q&A

As can be seen from the table below, SF-LLaVA outperforms other training-free methods in multiple choice video Q&A in all benchmarks. In the EgoSchema dataset, which requires complex long-term reasoning, the SF-LLaVA7B and 34B versions scored 11.4% and 2.2% higher than the IG-VLM model, respectively.

While VideoTree leads in the benchmarks because it is a proprietary model based on GPT-4, the performance is much higher than open source LLM. The SF-LLaVA 34B model also achieves better results on EgoSchema compared to the SFT method, which confirms the power of the SlowFast design in handling long videos.
Text Generation

Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes

文生视频

As shown in Table 3, for the task of text generation video, SF-LLaVA also shows some advantages. The SF-LLaVA-34B exceeded all training-free benchmarks in overall performance. Although in terms of detail orientation, SF-LLaVA is slightly inferior to LLaVA-NeXT-Image. Based on the SlowFast design, SF-LLaVA can cover longer temporal context with fewer visual tokens, and therefore performs particularly well in temporal understanding tasks.

In addition, SF-LLaVA-34B also outperforms most SFT methods in terms of Vincent video performance.

Ajoutez des yeux rapides et lents au modèle vidéo, la nouvelle méthode sans formation dApple surpasse tout SOTA en quelques secondes

For more details, please refer to the original paper.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:jiqizhixin.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!