Table des matières
Positionnement de clips vidéo dans une phrase
△Figure 1
Tests multiples New SOTA
Maison Périphériques technologiques IA La nouvelle méthode de l'Université Tsinghua localise avec succès des clips vidéo précis ! SOTA a été surpassé et open source

La nouvelle méthode de l'Université Tsinghua localise avec succès des clips vidéo précis ! SOTA a été surpassé et open source

Jan 09, 2024 pm 03:26 PM
视频 ai

Avec une seule phrase de description, vous pouvez localiser le clip correspondant dans une grande vidéo !

Par exemple, en décrivant "une personne buvant de l'eau en descendant les escaliers", grâce à la correspondance d'images vidéo et de pas, la nouvelle méthode peut trouver instantanément les horodatages de début et de fin correspondants :

La nouvelle méthode de lUniversité Tsinghua localise avec succès des clips vidéo précis ! SOTA a été surpassé et open source

Même "en riant" Même ceux dont la sémantique est difficile à comprendre peuvent être positionnés avec précision :

La nouvelle méthode de lUniversité Tsinghua localise avec succès des clips vidéo précis ! SOTA a été surpassé et open source

La méthode s'appelle Adaptive Dual-Branch Promoting Network (ADPN) et a été proposée par l'équipe de recherche de l'Université Tsinghua.

Plus précisément, ADPN est utilisé pour effectuer une tâche intermodale visuo-linguistique appelée positionnement de clip vidéo (Temporal Sentence Grounding, TSG), qui consiste à localiser les clips pertinents de la vidéo en fonction du texte de la requête.

ADPN se caractérise par sa capacité à utiliser efficacement la cohérence et la complémentarité des modalités visuelles et audio dans les vidéos pour améliorer les performances de positionnement des clips vidéo.

Par rapport à d'autres travaux TSG PMI-LOC et UMT qui utilisent l'audio, la méthode ADPN a obtenu des améliorations de performances plus significatives par rapport au mode audio et a remporté un nouveau SOTA dans plusieurs tests.

Actuellement, ce travail a été accepté par ACM Multimedia 2023 et est entièrement open source.

La nouvelle méthode de lUniversité Tsinghua localise avec succès des clips vidéo précis ! SOTA a été surpassé et open source

Jetons un coup d'œil à ce qu'est ADPN~

Positionnement de clips vidéo dans une phrase

Positionnement de clips vidéo (Temporal Sentence Grounding, TSG) est une tâche intermodale visuo-linguistique importante.

Son objectif est de trouver les horodatages de début et de fin des segments qui leur correspondent sémantiquement dans une vidéo non éditée basée sur des requêtes en langage naturel. Cela nécessite que la méthode ait de fortes capacités de raisonnement multimodal temporel.

Cependant, la plupart des méthodes TSG existantes ne prennent en compte que les informations visuelles de la vidéo, telles que RVB, flux optique(flux optiques), profondeur(profondeur), etc., tout en ignorant les informations audio accompagnant naturellement la vidéo. .

Les informations audio contiennent souvent une sémantique riche et sont cohérentes et complémentaires avec les informations visuelles. Comme le montre la figure ci-dessous, ces propriétés aideront la tâche TSG.

La nouvelle méthode de lUniversité Tsinghua localise avec succès des clips vidéo précis ! SOTA a été surpassé et open source
△Figure 1

(a) Cohérence : l'image vidéo et les pas correspondent systématiquement à la sémantique de « descendre les escaliers » dans la requête (b) Complémentarité : l'image vidéo est difficile à identifier ; comportement pour localiser le sens sémantique de « rire » dans la requête, mais la présence du rire fournit un indice de positionnement complémentaire fort.

Les chercheurs ont donc étudié en profondeur la tâche de localisation de clips vidéo améliorée par l'audio (Audio-enhanced Temporal Sentence Grounding, ATSG), dans le but de mieux capturer les indices de localisation à partir des modalités visuelles et audio. Cependant, le mode audio L'introduction de. Les modalités apportent également les défis suivants :

  • La cohérence et la complémentarité des modalités audio et visuelles sont associées au texte de la requête, donc capturer la cohérence et la complémentarité audiovisuelles nécessite de modéliser les trois modes d'interaction avec état texte-visuel-audio.
  • Il existe des différences modales significatives entre l'audio et la vision. La densité de l'information et l'intensité du bruit des deux sont différentes, ce qui affectera les performances de l'apprentissage audiovisuel.

Pour résoudre les défis ci-dessus, les chercheurs ont proposé une nouvelle méthode ATSG « Adaptive Dual-branch Prompted Network » (Adaptive Dual-branch Prompted Network, ADPN).

Grâce à une conception de structure de modèle à double branche, cette méthode peut modéliser de manière adaptative la cohérence et la complémentarité entre l'audio et la vision, et éliminer davantage le bruit modal audio à l'aide d'une stratégie d'optimisation du débruitage basée sur les interférences d'apprentissage de cours, révélant l'importance des signaux audio pour la vidéo. récupération.

La structure globale de l'ADPN est présentée dans la figure ci-dessous :

La nouvelle méthode de lUniversité Tsinghua localise avec succès des clips vidéo précis ! SOTA a été surpassé et open source

△ Figure 2 : Schéma général du réseau de promotion adaptatif à double branche (ADPN)

Il comprend principalement trois conceptions :

1. conception de la structure du réseau

Étant donné que le bruit de l'audio est plus évident et que pour les tâches TSG, l'audio contient généralement plus d'informations redondantes, de sorte que le processus d'apprentissage des modalités audio et visuelles doit avoir une importance différente, cet article implique donc une double branche La structure du réseau utilise l'audio et la vision pour l'apprentissage multimodal tout en améliorant les informations visuelles.

Plus précisément, en référence à la figure 2(a), ADPN entraîne simultanément une branche (branche visuelle) qui utilise uniquement des informations visuelles et une branche (branche conjointe) qui utilise à la fois des informations visuelles et des informations audio.

Les deux branches ont des structures similaires, dans lesquelles la branche commune ajoute une unité d'exploration d'indices guidée par texte (TGCM) pour modéliser l'interaction modale texte-visuel-audio. Au cours du processus de formation, les deux branches mettent à jour les paramètres en même temps et la phase d'inférence utilise le résultat de la branche commune comme résultat de prédiction du modèle.

2. Text-Guided Clues Miner (Text-Guided Clues Miner, TGCM)

Considérant que la cohérence et la complémentarité des modalités audio et visuelles sont basées sur la requête textuelle donnée, les chercheurs ont donc conçu l'unité TGCM. modéliser l’interaction entre les trois modalités texte-visuel-audio.

Reportez-vous à la figure 2(b), le TGCM est divisé en deux étapes : « extraction » et « propagation ».

Tout d'abord, le texte est utilisé comme condition de requête, et les informations associées sont extraites et intégrées des modalités visuelles et audio ; ensuite les modalités visuelles et audio sont utilisées comme condition de requête, et les informations intégrées sont diffusées vers le visuel et modes audio par l'attention. Leurs modalités respectives sont enfin fusionnées via FFN.

3. Stratégie d'optimisation de l'apprentissage du programme

Les chercheurs ont observé que l'audio contient du bruit, ce qui affectera l'effet de l'apprentissage multimodal, ils ont donc utilisé l'intensité du bruit comme référence pour un échantillon de difficulté et ont introduit l'apprentissage du programme (Curriculum Learning, CL) Débruitez le processus d'optimisation, reportez-vous à la figure 2(c).

Ils évaluent la difficulté de l'échantillon en fonction de la différence dans la sortie prévue des deux branches. Ils pensent qu'un échantillon trop difficile a une forte probabilité d'indiquer que son audio contient trop de bruit et n'est pas adapté à l'échantillon. Tâche TSG, de sorte que la perte du processus de formation est basée sur le score d'évaluation de la difficulté de l'échantillon. Les termes de fonction sont repondérés pour éliminer les mauvais gradients causés par le bruit dans l'audio.

(Veuillez vous référer au texte original pour le reste de la structure du modèle et les détails de la formation.)

Tests multiples New SOTA

Les chercheurs ont mené des évaluations expérimentales sur les ensembles de données de référence Charades-STA et ActivityNet Légendes du TSG tâche et comparée à la méthode de base. La comparaison est présentée dans le tableau 1.

La méthode ADPN peut atteindre des performances SOTA ; en particulier, par rapport à d'autres travaux TSG PMI-LOC et UMT qui utilisent l'audio, la méthode ADPN obtient des améliorations de performances plus significatives de la modalité audio, indiquant que la méthode ADPN utilise la modalité audio pour promouvoir la supériorité du TSG.

La nouvelle méthode de lUniversité Tsinghua localise avec succès des clips vidéo précis ! SOTA a été surpassé et open source

△Tableau 1 : Résultats expérimentaux sur Charades-STA et ActivityNet Captions

Les chercheurs ont en outre démontré l'efficacité de différentes unités de conception dans ADPN grâce à des expériences d'ablation, comme le montre le tableau 2.

La nouvelle méthode de lUniversité Tsinghua localise avec succès des clips vidéo précis ! SOTA a été surpassé et open source

△Tableau 2 : Expérience d'ablation sur Charades-STA

Les chercheurs ont sélectionné les résultats de prédiction de certains échantillons pour la visualisation et ont dessiné le « texte en vision » (T → V) lors de l'étape « d'extraction » dans TGCM ) et la distribution du poids d'attention « texte en audio » (T → A), comme le montre la figure 3.

On peut observer que l'introduction de la modalité audio améliore les résultats de prédiction. Dans le cas de « La personne en rit », nous pouvons voir que la répartition du poids d'attention de T→A est plus proche de la vérité terrain, ce qui corrige l'orientation erronée de la prédiction du modèle par la répartition du poids de T→V.

La nouvelle méthode de lUniversité Tsinghua localise avec succès des clips vidéo précis ! SOTA a été surpassé et open source

△ Figure 3 : Présentation de cas

En résumé, les chercheurs de cet article ont proposé un nouveau réseau adaptatif de facilitation à double branche (ADPN) pour résoudre la localisation de clips vidéo améliorée par l'audio (ATSG) Question.

Ils ont conçu une structure modèle à deux branches pour former conjointement la branche visuelle et la branche commune audiovisuelle afin de résoudre la différence d'information entre les modalités audio et visuelles.

Ils ont également proposé une unité d'exploration d'indices guidée par texte (TGCM) qui utilise la sémantique du texte comme guide pour modéliser l'interaction texte-audiovisuel.

Enfin, les chercheurs ont conçu une stratégie d'optimisation basée sur l'apprentissage des cours pour éliminer davantage le bruit audio, évaluer la difficulté des échantillons en tant que mesure de l'intensité du bruit de manière consciente et ajuster le processus d'optimisation de manière adaptative.

Ils ont d'abord mené une étude approfondie des caractéristiques de l'audio dans ATSG pour mieux améliorer l'effet d'amélioration des performances des modes audio.

À l'avenir, ils espèrent construire un référentiel d'évaluation plus approprié pour l'ATSG afin d'encourager des recherches plus approfondies dans ce domaine.

Lien papier : https://dl.acm.org/doi/pdf/10.1145/3581783.3612504
Lien entrepôt : https://github.com/hlchen23/ADPN-MM

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment Uvicorn écoute-t-il en permanence les demandes HTTP sans servir_forever ()? Comment Uvicorn écoute-t-il en permanence les demandes HTTP sans servir_forever ()? Apr 01, 2025 pm 10:51 PM

Comment Uvicorn écoute-t-il en permanence les demandes HTTP? Uvicorn est un serveur Web léger basé sur ASGI. L'une de ses fonctions principales est d'écouter les demandes HTTP et de procéder ...

Comment créer dynamiquement un objet via une chaîne et appeler ses méthodes dans Python? Comment créer dynamiquement un objet via une chaîne et appeler ses méthodes dans Python? Apr 01, 2025 pm 11:18 PM

Dans Python, comment créer dynamiquement un objet via une chaîne et appeler ses méthodes? Il s'agit d'une exigence de programmation courante, surtout si elle doit être configurée ou exécutée ...

À l'ère Chatgpt, comment la communauté technique des questions et réponses peut-elle répondre aux défis? À l'ère Chatgpt, comment la communauté technique des questions et réponses peut-elle répondre aux défis? Apr 01, 2025 pm 11:51 PM

La communauté technique de questions-réponses à l'ère Chatgpt: Stratégie de réponse de SegmentFault StackOverflow ...

Comment gérer gracieusement l'erreur 'Pipe fermé' dans la communication de tuyaux multi-processus Python? Comment gérer gracieusement l'erreur 'Pipe fermé' dans la communication de tuyaux multi-processus Python? Apr 01, 2025 pm 11:12 PM

Erreur de tuyau multi-processus Python "Le tuyau est fermé"? Lorsque vous utilisez la méthode du tuyau dans le module multiprocesseur de Python pour la communication de processus parent-enfant, vous pouvez rencontrer ...

Comment résoudre le problème du contenu de chargement dynamique manquant lors de l'obtention de données de page Web? Comment résoudre le problème du contenu de chargement dynamique manquant lors de l'obtention de données de page Web? Apr 01, 2025 pm 11:24 PM

Problèmes et solutions rencontrés lors de l'utilisation de la bibliothèque de requêtes pour faire craquer les données de la page Web. Lorsque vous utilisez la bibliothèque des demandes pour obtenir des données de page Web, vous rencontrez parfois le ...

Comment utiliser GO ou Rust pour appeler les scripts Python pour réaliser une véritable exécution parallèle? Comment utiliser GO ou Rust pour appeler les scripts Python pour réaliser une véritable exécution parallèle? Apr 01, 2025 pm 11:39 PM

Comment utiliser GO ou Rust pour appeler les scripts Python pour réaliser une véritable exécution parallèle? Récemment, j'ai utilisé Python ...

Quelle est la raison de la redirection des erreurs 404 après s'être connectée au sélénium? Comment le résoudre? Quelle est la raison de la redirection des erreurs 404 après s'être connectée au sélénium? Comment le résoudre? Apr 01, 2025 pm 10:54 PM

Solution pour rediriger 404 erreurs après la connexion de la simulation Lors de l'utilisation du sélénium pour la connexion de la simulation, nous rencontrons souvent des problèmes difficiles. � ...

See all articles