Table des matières
Introduction
Méthode
Résultats expérimentaux
Résumé
Informations sur l'auteur
Maison Périphériques technologiques IA Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer

Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer

Apr 23, 2024 am 08:01 AM
git 理论

Introduction

Comme le montre la figure 1, le réseau de suivi de cible unique RGB-T à trois étages existant utilise généralement deux branches d'extraction de caractéristiques indépendantes, qui sont respectivement responsables de l'extraction des caractéristiques des deux modalités. Cependant, les branches d’extraction de caractéristiques mutuellement indépendantes entraîneront un manque d’interaction d’informations efficace entre les deux modalités lors de l’étape d’extraction de caractéristiques. Par conséquent, une fois que le réseau a terminé la formation hors ligne, il ne peut extraire que des fonctionnalités fixes de chaque image modale et ne peut pas s'ajuster dynamiquement en fonction de l'état modal réel pour extraire des fonctionnalités dynamiques plus ciblées. Cette limitation restreint la capacité du réseau à s'adapter à diverses apparences bimodales cibles et à la correspondance dynamique entre les apparences modales. Comme le montre la figure 2, cette méthode d'extraction de caractéristiques n'est pas adaptée aux scénarios d'application pratiques du suivi de cible unique RVB-T, en particulier dans des environnements complexes, car le caractère arbitraire de la cible suivie conduira à diverses apparences bimodales de la cible, et la dynamique. La relation entre les deux modalités change également à mesure que l'environnement de suivi change. Le suivi de fusion en trois étapes ne peut pas bien s'adapter à cette situation, ce qui entraîne un goulot d'étranglement évident en termes de vitesse.

À l'exception du réseau de suivi de cible unique RGB-T basé sur Transformer, il utilise l'addition directe ou la cascade pour combiner les fonctionnalités des deux zones de recherche modales et saisir la tête de prédiction pour produire le résultat de prédiction final. Cependant, les images vidéo fournies par l'ensemble de données de suivi de cible unique RVB-T actuel ne sont pas complètement alignées, et toutes les zones de recherche modale ne peuvent pas fournir des informations efficaces, comme la zone de recherche modale RVB dans la nuit noire et les scénarios de suivi croisé chaud. Et la zone de recherche extérieure infrarouge ne sera pas en mesure de fournir des informations efficaces sur l'apparence de la cible, et il y aura beaucoup de bruit de fond. Par conséquent, la fusion de fonctionnalités directement par ajout ou cascade élément par élément ne prend pas en compte le problème de la fusion de fonctionnalités dans différentes zones de recherche. Pour résoudre ce problème, cet article propose une nouvelle méthode appelée Fusion Feature Selection Module (FFSM). Le module FFSM est principalement utilisé pour sélectionner les caractéristiques de la zone de recherche de l'apparence de la cible avec des informations efficaces. Plus précisément, le module FFSM apprend d'abord le poids de chaque fonctionnalité de zone de recherche via le mécanisme d'attention. Ensuite, les caractéristiques de la zone de recherche sont pondérées et additionnées en fonction de ces poids pour obtenir les caractéristiques de fusion finales. Ce mécanisme peut filtrer efficacement le bruit de fond non valide et extraire les informations sur l'apparence de la cible avec une plus grande importance, améliorant ainsi les performances de suivi d'une cible unique RVB-T. Afin de vérifier l'efficacité du module FFSM, nous avons mené des expériences en présence d'une grande quantité de bruit de fond. Les résultats expérimentaux montrent que le réseau de suivi de cible unique RGB-T utilisant le module FFSM atteint de meilleures performances en matière de suivi de cible par rapport à l'ajout direct par élément ou à la cascade. Dans les scénarios de nuit noire et de suivi croisé chaud, le module FFSM peut sélectionner avec précision les informations efficaces sur l'apparence de la cible, améliorant ainsi la précision et la robustesse du suivi de la cible. En bref, l'introduction du module FFSM résout efficacement le problème de la fusion directe des fonctionnalités et améliore les performances du réseau de suivi de cible unique RGB-T. Cette méthode peut être largement utilisée en présence d'une grande quantité de bruit de fond. Transformateur. Son cœur est d'unifier directement les trois parties fonctionnelles de la méthode de suivi de fusion en trois étapes dans un réseau fédérateur ViT pour une exécution simultanée grâce à des méthodes conjointes d'extraction de caractéristiques, de fusion et de modélisation de corrélation, réalisant ainsi une extraction directe de modèles cibles et une recherche sous interaction modale. Les caractéristiques de fusion de la région et construisent la modélisation d'association entre les deux caractéristiques de fusion, améliorant ainsi considérablement la vitesse et la précision du suivi. En outre, USTrack a également conçu un mécanisme de sélection de fonctionnalités basé sur la fiabilité modale, qui peut réduire l'interférence des modes non valides en supprimant directement la génération de modes non valides, réduisant ainsi l'impact des informations de bruit sur les résultats de suivi finaux. En fin de compte, USTrack a créé la vitesse la plus rapide du suivi de cible unique RGB-T actuel à 84,2 FPS, et a considérablement réduit les informations de bruit en minimisant l'écart de position de la cible dans les deux images modales et en atténuant l'impact des informations modales non valides sur les résultats de suivi. impact sur les résultats finaux prévisionnels.

Les contributions de cet article sont les suivantes : Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer
Le réseau actuel de suivi de fusion en trois étapes a le problème du manque d'interaction modale dans l'étape d'extraction des caractéristiques modales. Ce chapitre propose une méthode conjointe d’extraction de caractéristiques, de fusion et de modélisation de corrélation. Cette méthode peut extraire directement les caractéristiques de fusion du modèle cible et de la zone de recherche sous l'interaction des modalités, et effectuer simultanément l'opération de modélisation de corrélation entre les deux caractéristiques de fusion. Pour la première fois, un paradigme de suivi de fusion en une seule étape efficace et concis est fourni pour la conception d'un réseau de suivi de cible unique RVB-T à court terme.

Ne changez pas le sens du texte original, ajustez la structure de la phrase, "%EF%BC%882%EF%BC%89 a d'abord proposé un mécanisme de sélection de fonctionnalités basé sur la fiabilité modale, qui peut évaluer la fiabilité de différentes images modales en fonction sur les propriétés réelles de l'environnement de suivi et éliminez les fonctionnalités de fusion générées par des modalités non valides basées sur la fiabilité, réduisant ainsi l'impact des informations de bruit sur les résultats de prédiction finaux, améliorant ainsi encore les performances de suivi "

Cet article présente trois simples RGB-T grand public. données de référence de suivi de cible. Un grand nombre d'expériences sur le plateau montrent que cette méthode atteint non seulement de nouvelles performances SoTA, mais crée également la vitesse de suivi la plus rapide allant jusqu'à 84,2 FPS. Surtout sur l'ensemble de données de suivi à court terme et l'ensemble de données de suivi à long terme VTUAV, USTrack surpasse les meilleures méthodes existantes de 11,1 %/11,7 % et 11,3 %/9,7 % sur les métriques MPR/MSR.

Méthode

Comme le montre la figure 3, l'architecture globale d'USTrack se compose de trois parties : deux couches d'intégration, un réseau fédérateur ViT et un mécanisme de sélection de fonctionnalités basé sur la fiabilité modale. Les doubles couches intégrées se composent de deux couches intégrées indépendantes. Cela tient compte du fait que le mécanisme d'attention obtient des informations globales basées sur la similarité et que les performances inhérentes des données modales différentes peuvent amener les deux modalités à avoir des représentations de caractéristiques différentes pour le même modèle. Si le modèle est directement cartographié par l'attention, cette hétérogénéité peut limiter. la capacité du réseau à modéliser les informations partagées sur l'état modal, affectant ainsi le processus ultérieur de fusion de fonctionnalités. Par conséquent, USTrack utilise deux couches d'intégration apprenables pour mapper les entrées correspondant à différentes modalités dans un espace propice à la fusion, pour aligner les deux modalités dans une certaine mesure et réduire l'impact des intrinsèques modaux sur la fusion de fonctionnalités. Ensuite, toutes les sorties de la double couche d'intégration sont utilisées conjointement comme entrée du réseau fédérateur ViT et sont directement transmises à travers la couche d'attention. Il fusionne les informations modales, la fusion de fonctionnalités et la fusion de modèles cibles grâce à l'attention, unifie les trois étapes fonctionnelles du suivi RVB-T et fournit un paradigme de suivi efficace en une seule étape pour le suivi RVB-T.

Le mécanisme de sélection des fonctionnalités basé sur la fiabilité des modèles est une tête de prédiction et deux modules d'évaluation de la fiabilité. Il permet aux deux têtes de prédiction de produire des résultats différents et, sur la base du score de fiabilité du modèle, aide le réseau à sélectionner la zone de recherche correspondant au modèle la plus adaptée au scénario de suivi actuel. Le mécanisme de sélection de caractéristiques peut être utilisé dans la prédiction finale pour réduire l'impact des informations de bruit générées par des modèles invalides sur le résultat de prédiction final.

Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer
Figure 3

Résultats expérimentaux

USTrack a sélectionné les ensembles de données GTOT, RGB234 et VTUAV comme références de test, et les résultats des tests sont présentés dans la figure 4. Nous avons également utilisé VTUAV comme référence pour analyser les performances d'USTrack dans différents scénarios de défi. Comme le montre la figure 5, cet article a éliminé les six attributs difficiles présentant les améliorations de performances les plus évidentes. Ce sont : la déformation (DEF), le changement d'échelle (SV), l'occlusion complète (FO), l'occlusion partielle (PO), le croisement thermique (TC) et l'éclairage extrême (EI). Plus précisément, les attributs de défi de déformation (DEF) et de changement d'échelle (SV) peuvent démontrer efficacement les différences d'apparence de la cible au cours du processus de suivi. Les attributs de défi d'occlusion complète (FO), d'occlusion partielle (PO), de croisement thermique (TC) et d'éclairage extrême (EI) peuvent provoquer le changement ou la disparition de l'apparence de l'état modal correspondant, démontrant efficacement la dynamique de la cible dans différents scénarios de défi. relation. USTrack a obtenu les améliorations de performances les plus significatives dans les scénarios de suivi avec ces attributs difficiles, et on peut évaluer que l'approche conjointe d'extraction, de fusion et de modélisation de caractéristiques peut atténuer efficacement le problème de l'interaction insuffisante des caractéristiques modales dans l'étape d'extraction dans les trois phases. Paradigme de suivi de fusion par étapes, il peut mieux s'adapter à la relation dynamique entre les différentes apparences et modalités de la cible pendant le suivi.

Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer
Figure 4
Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer
Figure 5

Comme le montrent les figures 6 et , afin de vérifier l'efficacité du mécanisme de sélection de caractéristiques basé sur la fiabilité modale, nous avons élargi le modèle avec des expériences comparatives entre la double prédiction la structure de tête du mécanisme de sélection de caractéristiques et plusieurs structures de tête de prédiction communes sont réalisées, et les résultats visuels de la bonne correspondance entre la fiabilité modale et la scène de suivi réelle sont donnés.

Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer
Figure 6
Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer
Figure 7

Résumé

Ce chapitre propose un réseau de suivi de cible unique RVB-T à court terme en une seule étape efficace basé sur Transformer. Le cœur d'USTrack est de proposer une méthode conjointe d'extraction, de fusion et de modélisation de corrélation pour résoudre le problème du manque d'interaction modale dans l'étape d'extraction de caractéristiques du réseau traditionnel de suivi de fusion en trois étapes. Cela améliore l'adaptabilité du réseau de suivi à diverses apparences bimodales cibles et la correspondance dynamique entre les apparences modales. Sur cette base, un mécanisme de sélection de fonctionnalités basé sur la fiabilité modale est en outre proposé. Ce mécanisme réduit l'impact des informations de bruit sur le résultat final de la prédiction en éliminant directement les caractéristiques de fusion générées par les modes invalides, obtenant ainsi de meilleures performances de suivi. USTrack atteint les performances SoTA sur trois ensembles de données grand public et établit un nouveau record pour la vitesse d'inférence de suivi RVB-T la plus rapide à 84,2 FPS. Il convient de noter que sur le plus grand ensemble de données de référence de suivi de cible unique RGB-T, VTUAV, cette méthode augmente les indicateurs d'évaluation MPR/MSR de 11,1 %/11,7 % et 11,3 %/9,7 % respectivement par rapport à la méthode SoTA existante. a réalisé une avancée majeure en termes de performances, en ajoutant une nouvelle et puissante méthode de référence à cet ensemble de données de référence.

Informations sur l'auteur

1. Xia Qiangqiang

Étudiant à la maîtrise, Institut d'innovation scientifique et technologique de la défense nationale, Académie des sciences militaires. Les intérêts de recherche incluent le traitement d’images visuelles, la détection de cibles, le suivi de cibles uniques, etc. Le premier auteur a publié un article lors de la conférence CCF de classe A et a remporté le premier prix pour Huawei lors du quatrième concours d'innovation en intelligence artificielle pour diplômés chinois de la « Huawei Cup » 2022.

2. Zhao Jian

Zhao Jian, chef du Laboratoire d'apprentissage cognitif multimédia (EVOL Lab) de l'Institut de recherche sur l'intelligence artificielle de China Telecom, jeune scientifique, chercheur à l'Institut d'optoélectronique et d'intelligence de l'Université polytechnique du Nord-Ouest, et titulaire d'un doctorat de l'Université nationale de Singapour. Ses intérêts de recherche incluent l'analyse multimédia, la sécurité locale et le renseignement incorporé.

Au total, 32 articles du CCF-A ont été publiés sur la compréhension de la perception visuelle sans contrainte, et 31 articles ont été publiés en tant que premier auteur/auteur correspondant dans des revues et conférences internationales faisant autorité telles que T-PAMI et CVPR, dont un auteur T-PAMI× 2 (IF : 24,314), IJCV×3 (IF : 13,369), et le premier inventeur a autorisé 5 brevets d'invention nationaux. Des avancées technologiques pertinentes ont été appliquées par six entreprises leaders du secteur technologique, dont Baidu, Ant Financial et Qihoo 360, et ont produit des avantages significatifs. Il a été sélectionné dans le « Projet de promotion des jeunes talents » de l'Association chinoise pour la science et la technologie et de l'Association de Pékin pour la science et la technologie, et a accueilli 6 projets, dont le Fonds national pour les sciences naturelles de la jeunesse. A remporté le Wu Wenjun Artificial Intelligence Outstanding Youth Award (2023), le premier prix du Wu Wenjun Artificial Intelligence Natural Science Award (2/5, 2022), le prix Lee Hwee Kuan de la Singapore Pattern Recognition and Machine Intelligence Association (PREMIA), et le seul meilleur étudiant de l'ACM Multimedia Paper Award (premier ouvrage, 1/208, conférence CCF-A, 2018), a remporté à 7 reprises le championnat d'événements scientifiques et technologiques internationaux importants.

A été directeur de la Beijing Image and Graphics Society, membre du comité de rédaction des revues de renommée internationale "Artificial Intelligence Advances" et "IET Computer Vision", rédacteur invité des numéros spéciaux de "Pattern Recognition Letters" et "Electronics ", président principal de terrain de VALSE et buteur de l'ACM Multimedia 2021. Président du forum, président de la zone CICAI 2022/2023, président du forum CCBR 2024, membre senior de la Société chinoise pour l'intelligence artificielle/Société chinoise de l'image et des graphiques, juge du " Challenge Cup "Concours de travaux scientifiques et technologiques pour étudiants universitaires, membre du comité d'experts du concours chinois d'intelligence artificielle, etc.

Page d'accueil : https://zhaoj9014.github.io

Capture d'écran du papier

Méthode efficace de suivi de cible unique RVB-T à court terme en une seule étape basée sur Transformer

Lien papier

https://arxiv.org/abs/2308.13764

Code lien

https://github.com/xiajianqiang

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment exécuter le projet H5 Comment exécuter le projet H5 Apr 06, 2025 pm 12:21 PM

L'exécution du projet H5 nécessite les étapes suivantes: Installation des outils nécessaires tels que le serveur Web, Node.js, les outils de développement, etc. Créez un environnement de développement, créez des dossiers de projet, initialisez les projets et écrivez du code. Démarrez le serveur de développement et exécutez la commande à l'aide de la ligne de commande. Aperçu du projet dans votre navigateur et entrez l'URL du serveur de développement. Publier des projets, optimiser le code, déployer des projets et configurer la configuration du serveur Web.

Comment afficher les résultats après le bootstrap Comment afficher les résultats après le bootstrap Apr 07, 2025 am 10:03 AM

Étapes pour afficher les résultats de bootstrap modifiés: ouvrez le fichier HTML directement dans le navigateur pour vous assurer que le fichier bootstrap est référencé correctement. Effacer le cache du navigateur (Ctrl Shift R). Si vous utilisez CDN, vous pouvez modifier directement CSS dans l'outil de développement pour afficher les effets en temps réel. Si vous modifiez le code source bootstrap, téléchargez et remplacez le fichier local ou réacheminez la commande build à l'aide d'un outil de build tel que WebPack.

Comment utiliser la pagination Vue Comment utiliser la pagination Vue Apr 08, 2025 am 06:45 AM

La pagination est une technologie qui divise de grands ensembles de données en petites pages pour améliorer les performances et l'expérience utilisateur. Dans Vue, vous pouvez utiliser la méthode intégrée suivante pour la pagination: Calculez le nombre total de pages: TotalPages () Numéro de page de traversée: Directive V-FOR pour définir la page actuelle: CurrentPage Obtenez les données de la page actuelle: CurrentPagedata ()

Surveillez les gouttelettes MySQL et MariaDB avec Exportateur de Prometheus Mysql Surveillez les gouttelettes MySQL et MariaDB avec Exportateur de Prometheus Mysql Apr 08, 2025 pm 02:42 PM

Une surveillance efficace des bases de données MySQL et MARIADB est essentielle pour maintenir des performances optimales, identifier les goulots d'étranglement potentiels et assurer la fiabilité globale du système. Prometheus Mysql Exportateur est un outil puissant qui fournit des informations détaillées sur les mesures de base de données qui sont essentielles pour la gestion et le dépannage proactifs.

HaDIDB: une base de données légère et évolutive horizontalement dans Python HaDIDB: une base de données légère et évolutive horizontalement dans Python Apr 08, 2025 pm 06:12 PM

HaDIDB: Une base de données Python évolutive de haut niveau légère HaDIDB (HaDIDB) est une base de données légère écrite en Python, avec un niveau élevé d'évolutivité. Installez HaDIDB à l'aide de l'installation PIP: PiPinStallHaDIDB User Management Créer un utilisateur: CreateUser () pour créer un nouvel utilisateur. La méthode Authentication () authentifie l'identité de l'utilisateur. FromHadidb.OperationMportUserUser_OBJ = User ("Admin", "Admin") User_OBJ.

Comment afficher le comportement javascript de Bootstrap Comment afficher le comportement javascript de Bootstrap Apr 07, 2025 am 10:33 AM

La section JavaScript de Bootstrap fournit des composants interactifs qui donnent une vitalité des pages statiques. En regardant le code open source, vous pouvez comprendre comment cela fonctionne: la liaison des événements déclenche les opérations DOM et les modifications de style. L'utilisation de base comprend l'introduction de fichiers JavaScript et l'utilisation d'API, et l'utilisation avancée implique des événements personnalisés et des capacités d'extension. Les questions fréquemment posées incluent les conflits de version et les conflits de style CSS, qui peuvent être résolus en vérifiant le code. Les conseils d'optimisation des performances incluent le chargement à la demande et la compression de code. La clé pour maîtriser Bootstrap JavaScript est de comprendre ses concepts de conception, de combiner des applications pratiques et d'utiliser des outils de développement pour déboguer et explorer.

Git est-il le même que Github? Git est-il le même que Github? Apr 08, 2025 am 12:13 AM

Git et Github ne sont pas la même chose. Git est un système de contrôle de version et GitHub est une plate-forme d'hébergement de code basée sur GIT. Git est utilisé pour gérer les versions de code et GitHub fournit un environnement de collaboration en ligne.

Comment construire un framework bootstrap Comment construire un framework bootstrap Apr 07, 2025 pm 02:54 PM

Bootstrap Framework Building Guide: Téléchargez Bootstrap et liez-le à votre projet. Créez un fichier HTML pour ajouter les éléments nécessaires. Créez une disposition réactive à l'aide du système de maillage bootstrap. Ajoutez des composants bootstrap tels que des boutons et des formulaires. Décidez-vous de personnaliser si nécessaire de personnaliser le bootstrap et de compiler les feuilles de style si nécessaire. Utilisez le système de contrôle de version pour suivre votre code.

See all articles