


Méthode BAT : le premier adaptateur bidirectionnel universel de suivi de cible multimodal de l'AAAI 2024
Le suivi d'objets est l'une des tâches fondamentales de la vision par ordinateur. Ces dernières années, le suivi d'objets à modalité unique (RVB) a fait des progrès significatifs. Cependant, en raison des limites d'un seul capteur d'imagerie, nous devons introduire des images multimodales (telles que RVB, infrarouge, etc.) pour compenser cette lacune et permettre un suivi de cible par tous les temps dans des environnements complexes. L'application de telles images multimodales peut fournir des informations plus complètes et améliorer la précision et la robustesse de la détection et du suivi des cibles. Le développement du suivi de cible multimodal revêt une grande importance pour la réalisation d’applications de vision par ordinateur de plus haut niveau.
Cependant, les tâches de suivi multimodal existantes sont également confrontées à deux problèmes majeurs :
- En raison du coût élevé de l'annotation des données pour le suivi de cibles multimodal, la plupart des ensembles de données existants sont limités en échelle et insuffisants pour prendre en charge Construire un tracker multimodal efficace ;
- Étant donné que différentes méthodes d'imagerie ont des sensibilités différentes aux objets dans des environnements changeants, la modalité dominante dans le monde ouvert change dynamiquement et la corrélation dominante entre les données multimodales Le sexe n'est pas fixe.
De nombreux efforts de suivi multimodal qui pré-entraînent sur des séquences RVB, puis affinent entièrement les scènes multimodales, présentent des problèmes de temps et d'efficacité, ainsi que des performances limitées.
En plus de la méthode de réglage fin complète, elle s'inspire également de méthodes efficaces de réglage fin des paramètres dans le domaine du traitement du langage naturel (NLP). Certaines méthodes récentes ont introduit un réglage rapide et efficace des paramètres dans le suivi multimodal. Pour ce faire, ces méthodes gèlent les paramètres du réseau fédérateur et ajoutent un ensemble supplémentaire de paramètres apprenables.
Habituellement, ces méthodes se concentrent sur une modalité (généralement RVB) comme modalité principale et l'autre modalité comme modalité auxiliaire. Cependant, cette méthode ignore la corrélation dynamique entre les données multimodales et ne peut donc pas utiliser pleinement les effets complémentaires des informations multimodales dans des scènes complexes, limitant ainsi les performances de suivi.
Photo 1 : Différents modes dominants dans des scénarios complexes.
Pour résoudre les problèmes ci-dessus, des chercheurs de l'Université de Tianjin ont proposé une solution appelée Adaptateur bidirectionnel pour le suivi multimodal (BAT). Différente des méthodes traditionnelles, la méthode BAT ne repose pas sur un mode dominant fixe et un mode auxiliaire, mais obtient de meilleures performances dans le changement de mode auxiliaire en mode dominant grâce au processus d'extraction dynamique des informations efficaces. L'innovation de cette méthode est qu'elle peut s'adapter à différentes caractéristiques des données et exigences des tâches, améliorant ainsi la capacité de représentation du modèle de base dans les tâches en aval. En utilisant la méthode BAT, les chercheurs espèrent fournir une solution de suivi multimodale plus flexible et plus efficace, apportant de meilleurs résultats à la recherche et aux applications dans des domaines connexes.
BAT se compose de deux encodeurs de modèle de base avec des paramètres partagés spécifiques aux branches modales et d'un adaptateur bidirectionnel général. Au cours du processus de formation, BAT n'a pas entièrement affiné le modèle de base, mais a adopté une méthode de formation étape par étape. Chaque branche de modalité spécifique est initialisée à l'aide du modèle de base avec des paramètres fixes, et seuls les adaptateurs bidirectionnels nouvellement ajoutés sont entraînés. Chaque branche modale apprend les informations de repère d'autres modalités et les combine avec les informations de caractéristiques de la modalité actuelle pour améliorer les capacités de représentation. Deux branches spécifiques à une modalité interagissent via un adaptateur bidirectionnel universel pour fusionner dynamiquement les informations dominantes et auxiliaires afin de s'adapter au paradigme de l'association multimodale non fixe. Cette conception permet à BAT d'affiner le contenu sans changer la signification du contenu original, améliorant ainsi la capacité de représentation et l'adaptabilité du modèle.
L'adaptateur bidirectionnel universel adopte une structure de sablier légère et peut être intégré dans chaque couche de l'encodeur de transformateur du modèle de base pour éviter d'introduire un grand nombre de paramètres apprenables. En ajoutant seulement un petit nombre de paramètres de formation (0,32 M), l'adaptateur bidirectionnel universel présente des coûts de formation inférieurs et permet d'obtenir de meilleures performances de suivi par rapport aux méthodes entièrement affinées et aux méthodes basées sur l'apprentissage des signaux.
Papier "Adaptateur bidirectionnel pour le suivi multimodal" :
Lien papier : https://arxiv.org/abs/2312.10611
Lien code : https://github .com/SparkTempest/BAT
Principales contributions
- Nous avons d'abord proposé un cadre de repères visuels de suivi multimodal basé sur un adaptateur. Notre modèle est capable de percevoir les changements dynamiques des modalités dominantes dans les scènes ouvertes et de fusionner efficacement les informations multimodales de manière adaptative.
- Au meilleur de nos connaissances, nous proposons pour la première fois un adaptateur bidirectionnel universel pour le modèle de base. Il a une structure simple et efficace et peut réaliser efficacement un suivi multimodal des repères croisés. En ajoutant seulement 0,32 million de paramètres apprenables, notre modèle est robuste au suivi multimodal dans des scénarios ouverts.
- Nous avons effectué une analyse approfondie de l'impact de notre adaptateur universel à différentes profondeurs de couche. Nous explorons également une architecture d'adaptateur plus efficace dans le cadre d'expériences et vérifions nos avantages sur plusieurs ensembles de données liés au suivi RGBT.
Méthode de base
Comme le montre la figure 2, nous proposons un cadre de repères visuels de suivi multimodal (BAT) basé sur un adaptateur bidirectionnel. Le cadre dispose d'un encodeur à double flux avec modalité RVB et infrarouge thermique. modalité. structure, chaque flux utilise les mêmes paramètres de modèle sous-jacents. L'adaptateur bidirectionnel est configuré en parallèle avec la couche d'encodeur à double flux pour croiser les données multimodales des deux modalités. La méthode
n'affine pas complètement le modèle de base, mais apprend uniquement un adaptateur bidirectionnel léger pour transférer efficacement le tracker RVB pré-entraîné vers des scènes multimodales, obtenant ainsi une excellente complémentarité multimodale et une excellente précision de suivi.
Figure 2 : Architecture globale de BAT.
Convertissez d'abord le cadre de modèle (le cadre initial de l'objet cible dans le premier cadre
) et le
cadre de recherche (image de suivi ultérieure) de chaque modalité en
, ils sont épissés ensemble et transmis respectivement au codeur de transformateur à double flux N-couche.
L'adaptateur bidirectionnel est configuré en parallèle avec la couche d'encodeur à double flux pour apprendre les caractéristiques d'une modalité à l'autre. À cette fin, les caractéristiques de sortie des deux branches sont ajoutées et entrées dans la tête de prédiction H pour obtenir la boîte de résultat de suivi final B.
L'adaptateur bidirectionnel adopte une conception modulaire et est intégré respectivement dans l'étape d'auto-attention multi-têtes et l'étape MLP. La structure détaillée de l'adaptateur bidirectionnel est illustrée sur le côté droit de la figure 1. est conçu pour transformer les repères de fonctionnalités d'un modèle à un autre état vers un autre mode. Il se compose de trois couches de projection linéaire, tn représente le nombre de jetons dans chaque modalité, le jeton d'entrée est d'abord réduit dimensionnellement à travers la projection vers le bas et passe à travers une couche de projection linéaire, puis projeté vers le haut jusqu'à la dimension d'origine dt et renvoyé en tant qu'invite de fonctionnalité, transformer les couches d'encodeur vers d'autres modalités.
Grâce à cette structure simple, l'adaptateur bidirectionnel peut exécuter efficacement des invites de fonctionnalités entre les modes pour obtenir un suivi multimodal.
Étant donné que l'encodeur du transformateur et la tête de prédiction sont gelés, seuls les paramètres de l'adaptateur nouvellement ajouté doivent être optimisés. Notamment, contrairement à la plupart des adaptateurs traditionnels, notre adaptateur bidirectionnel fonctionne comme un indicateur de fonctionnalité multimodale pour changer dynamiquement les modalités dominantes, garantissant ainsi de bonnes performances de suivi dans le monde ouvert.
Résultats expérimentaux
Comme le montre le tableau 1, la comparaison des deux ensembles de données RGBT234 et LasHeR montre que notre méthode est meilleure que les méthodes de pointe en termes de précision et de taux de réussite. Comme le montre la figure 3, la comparaison des performances avec les méthodes de pointe sous différentes propriétés de scène de l'ensemble de données LasHeR démontre également la supériorité de la méthode proposée.
Ces expériences prouvent pleinement que notre cadre de suivi à double flux et notre adaptateur bidirectionnel peuvent suivre avec succès des cibles dans les environnements les plus complexes et extraire de manière adaptative des informations efficaces à partir de modes auxiliaires dominants changeants de manière dynamique pour obtenir les meilleurs résultats avancés.
Tableau 1 Performances globales sur les ensembles de données RGBT234 et LasHeR.
Figure 3 Comparaison des BAT et des méthodes concurrentes sous différents attributs dans l'ensemble de données LasHeR.
Les expériences prouvent notre efficacité à générer dynamiquement des informations efficaces provenant de l'évolution des modèles dominants-auxiliaires dans des scénarios complexes. Comme le montre la figure 4, par rapport aux méthodes associées qui corrigent le mode dominant, notre méthode peut suivre efficacement la cible même lorsque RVB est totalement indisponible, lorsque RVB et TIR peuvent fournir des informations efficaces dans les scènes suivantes, l'effet de suivi est bien meilleur. . Notre adaptateur bidirectionnel extrait dynamiquement les caractéristiques efficaces de la cible des modalités RVB et IR, capture des emplacements de réponse cible plus précis et élimine les interférences de la modalité RVB.
Figure 4 Visualisation des résultats du suivi.
Nous évaluons également notre méthode sur l'ensemble de données de suivi RGBE. Comme le montre la figure 5, comparée à d'autres méthodes de l'ensemble de tests VisEvent, notre méthode donne les résultats de suivi les plus précis dans différents scénarios complexes, prouvant l'efficacité et la généralisation de notre modèle BAT.
Figure 5 Résultats de suivi sous l'ensemble de données VisEvent.
Figure 6 Attention visualisation du poids.
Nous visualisons les poids d'attention des différentes couches de suivi des cibles dans la figure 6. Par rapport à la méthode de base-dual (cadre à double flux pour l'initialisation des paramètres de base du modèle), notre BAT pilote efficacement le mode auxiliaire pour apprendre davantage d'informations complémentaires du mode dominant, tout en maintenant l'efficacité du mode dominant à mesure que la profondeur du réseau augmente. performances, améliorant ainsi les performances globales de suivi.
Les expériences montrent que BAT capture avec succès des informations complémentaires multimodales et réalise un suivi dynamique adaptatif d'échantillons.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Lors de la conversion des chaînes en objets dans vue.js, JSON.Parse () est préféré pour les chaînes JSON standard. Pour les chaînes JSON non standard, la chaîne peut être traitée en utilisant des expressions régulières et réduisez les méthodes en fonction du format ou du codé décodé par URL. Sélectionnez la méthode appropriée en fonction du format de chaîne et faites attention aux problèmes de sécurité et d'encodage pour éviter les bogues.

L'article présente le fonctionnement de la base de données MySQL. Tout d'abord, vous devez installer un client MySQL, tel que MySQLWorkBench ou le client de ligne de commande. 1. Utilisez la commande MySQL-UROot-P pour vous connecter au serveur et connecter avec le mot de passe du compte racine; 2. Utilisez Createdatabase pour créer une base de données et utilisez Sélectionner une base de données; 3. Utilisez CreateTable pour créer une table, définissez des champs et des types de données; 4. Utilisez InsertInto pour insérer des données, remettre en question les données, mettre à jour les données par mise à jour et supprimer les données par Supprimer. Ce n'est qu'en maîtrisant ces étapes, en apprenant à faire face à des problèmes courants et à l'optimisation des performances de la base de données que vous pouvez utiliser efficacement MySQL.

Résumé: Il existe les méthodes suivantes pour convertir les tableaux de chaîne Vue.js en tableaux d'objets: Méthode de base: utilisez la fonction de carte pour convenir à des données formatées régulières. Gameplay avancé: l'utilisation d'expressions régulières peut gérer des formats complexes, mais ils doivent être soigneusement écrits et considérés. Optimisation des performances: Considérant la grande quantité de données, des opérations asynchrones ou des bibliothèques efficaces de traitement des données peuvent être utilisées. MEILLEUR PRATIQUE: Effacer le style de code, utilisez des noms de variables significatifs et des commentaires pour garder le code concis.

Afin de définir le délai d'expiration de Vue Axios, nous pouvons créer une instance AxiOS et spécifier l'option Timeout: dans les paramètres globaux: vue.prototype. $ Axios = axios.create ({timeout: 5000}); Dans une seule demande: ce. $ axios.get ('/ api / utilisateurs', {timeout: 10000}).

Traiter efficacement 7 millions d'enregistrements et créer des cartes interactives avec la technologie géospatiale. Cet article explore comment traiter efficacement plus de 7 millions d'enregistrements en utilisant Laravel et MySQL et les convertir en visualisations de cartes interactives. Exigences initiales du projet de défi: extraire des informations précieuses en utilisant 7 millions d'enregistrements dans la base de données MySQL. Beaucoup de gens considèrent d'abord les langages de programmation, mais ignorent la base de données elle-même: peut-il répondre aux besoins? La migration des données ou l'ajustement structurel est-il requis? MySQL peut-il résister à une charge de données aussi importante? Analyse préliminaire: les filtres et les propriétés clés doivent être identifiés. Après analyse, il a été constaté que seuls quelques attributs étaient liés à la solution. Nous avons vérifié la faisabilité du filtre et établi certaines restrictions pour optimiser la recherche. Recherche de cartes basée sur la ville

Il existe de nombreuses raisons pour lesquelles la startup MySQL échoue, et elle peut être diagnostiquée en vérifiant le journal des erreurs. Les causes courantes incluent les conflits de port (vérifier l'occupation du port et la configuration de modification), les problèmes d'autorisation (vérifier le service exécutant les autorisations des utilisateurs), les erreurs de fichier de configuration (vérifier les paramètres des paramètres), la corruption du répertoire de données (restaurer les données ou reconstruire l'espace de la table), les problèmes d'espace de la table InNODB (vérifier les fichiers IBDATA1), la défaillance du chargement du plug-in (vérification du journal des erreurs). Lors de la résolution de problèmes, vous devez les analyser en fonction du journal d'erreur, trouver la cause profonde du problème et développer l'habitude de sauvegarder régulièrement les données pour prévenir et résoudre des problèmes.

Ingénieur backend à distance Emploi Vacant Société: Emplacement du cercle: Bureau à distance Type d'emploi: Salaire à temps plein: 130 000 $ - 140 000 $ Description du poste Participez à la recherche et au développement des applications mobiles Circle et des fonctionnalités publiques liées à l'API couvrant l'intégralité du cycle de vie de développement logiciel. Les principales responsabilités complètent indépendamment les travaux de développement basés sur RubyOnRails et collaborent avec l'équipe frontale React / Redux / Relay. Créez les fonctionnalités de base et les améliorations des applications Web et travaillez en étroite collaboration avec les concepteurs et le leadership tout au long du processus de conception fonctionnelle. Promouvoir les processus de développement positifs et hiérarchiser la vitesse d'itération. Nécessite plus de 6 ans de backend d'applications Web complexe

L'optimisation des performances MySQL doit commencer à partir de trois aspects: configuration d'installation, indexation et optimisation des requêtes, surveillance et réglage. 1. Après l'installation, vous devez ajuster le fichier my.cnf en fonction de la configuration du serveur, tel que le paramètre innodb_buffer_pool_size, et fermer query_cache_size; 2. Créez un index approprié pour éviter les index excessifs et optimiser les instructions de requête, telles que l'utilisation de la commande Explication pour analyser le plan d'exécution; 3. Utilisez le propre outil de surveillance de MySQL (ShowProcessList, Showstatus) pour surveiller la santé de la base de données, et sauvegarde régulièrement et organisez la base de données. Ce n'est qu'en optimisant en continu ces étapes que les performances de la base de données MySQL peuvent être améliorées.
