


Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme d'attention et présente à la fois une faible complexité et un champ de réception global.

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Email de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Comment briser le mécanisme d'attention de Transformer ? L'Université de l'Académie chinoise des sciences et le Laboratoire national de Pengcheng ont proposé un modèle de représentation visuelle vHeat basé sur la conduction thermique. Traitez le bloc de caractéristiques de l'image comme une source de chaleur et extrayez les caractéristiques de l'image en prédisant la conductivité thermique et en vous basant sur le conduction thermique physiqueprincipe. Par rapport au modèle visuel basé sur le mécanisme Attention, vHeat prend en compte à la fois : la complexité informatique (puissance 1,5), le champ récepteur global et l'interprétabilité physique.
Lorsque vous utilisez vHeat-base+%E6%A8%A1%E5%9E%8B pour une entrée d'image haute résolution, le put, l'utilisation de la mémoire GPU et les flops sont respectivement Swin-base+%E6%A8%A1%E5%9E . 3 fois, 1/4, 3/4 de %8B. Il a atteint des performances avancées sur les tâches de base en aval telles que la classification d'images, la détection de cibles et la segmentation sémantique/instance.- Adresse du papier : https://arxiv.org/pdf/2405.16555
- Adresse du code : https://github.com/MzeroMiko/vHeat
- Titre du papier : vHeat : Building Vision Modèles par conduction thermique
Vue d'ensemble
Les deux modèles visuels de base les plus courants actuellement sont CNN et Visual Transformer (ViT). Cependant, les performances de CNN sont limitées par les champs récepteurs locaux et les opérateurs de noyau à convolution fixes. ViT a la capacité de représenter des dépendances globales, mais au prix d’une complexité informatique élevée en normes quadratiques. Nous pensons que les opérateurs de convolution et les opérateurs d'auto-attention de CNN et ViT sont tous deux des processus de transfert de pixels au sein de caractéristiques, qui sont respectivement une forme de transfert d'informations, qui nous rappelle également la conduction thermique dans le domaine physique. Ainsi, sur la base de l'équation de conduction thermique, nous avons relié la propagation spatiale de la sémantique visuelle à la conduction physique de la chaleur, proposé un opérateur de conduction visuelle (Heat Conduction Operator, HCO) avec une complexité de calcul de 1,5 puissance, puis conçu un opérateur de conduction thermique avec une faible représentation visuelle. modélisez vHeat pour la complexité, le champ récepteur global et l’interprétabilité physique. Le formulaire de calcul et la comparaison de la complexité entre HCO et l'auto-attention sont présentés dans la figure ci-dessous. Des expériences ont prouvé que vHeat fonctionne bien dans diverses tâches visuelles. Par exemple, vHeat-T atteint une précision de classification de 82,2 % sur ImageNet-1K, soit 0,9 % de plus que Swin-T et 1,7 % de plus que ViM-S. En plus des performances, vHeat présente également les avantages d'une vitesse d'inférence élevée, d'une faible utilisation de la mémoire GPU et de faibles FLOP. Lorsque la résolution de l'image d'entrée est élevée, le modèle vHeat à l'échelle de base n'a qu'un tiers de débit en plus, un quart d'utilisation de la mémoire GPU et 3/4 FLOP par rapport à Swin.Introduction à la méthode
Utilisez pour représenter la température du point au temps t. L'équation physique de conduction thermique est
, où k>0 représente la diffusivité thermique. Étant donné les conditions initiales
au temps t=0, l'équation de conduction thermique peut être résolue à l'aide de la transformée de Fourier, qui s'exprime comme suit :
où et
représentent respectivement la transformée de Fourier et la transformée de Fourier inverse, et
représente les coordonnées spatiales du domaine fréquentiel.
Nous utilisons HCO pour implémenter la conduction thermique dans la sémantique visuelle. Tout d'abord, nous étendons dans l'équation physique de conduction thermique en une fonctionnalité multicanal
. Nous considérons
comme une entrée et
comme une sortie. sous forme discrétisée, comme suit La formule est représentée :
où et
représentent respectivement la transformée en cosinus discrète bidimensionnelle et la transformée inverse. La structure de HCO est représentée dans la figure (a) ci-dessous.
De plus, nous pensons que différents contenus d'image doivent correspondre à différentes diffusivités thermiques. Considérant que la sortie de est dans le domaine fréquentiel, nous déterminons la diffusivité thermique en fonction de la valeur de fréquence,
. Étant donné que différentes positions dans le domaine fréquentiel représentent différentes valeurs de fréquence, nous proposons des incorporations de valeurs de fréquence (FVE) pour représenter les informations sur les valeurs de fréquence, ce qui est similaire à la mise en œuvre et à la fonction du codage de position absolue dans ViT, et utilisons les FVE pour contrôler la diffusion de chaleur. le taux k est prédit afin que HCO puisse effectuer une conduction non uniforme et adaptative, comme le montre la figure ci-dessous.
vHeat est implémenté à l'aide d'une structure à plusieurs niveaux, comme le montre la figure ci-dessous. Le cadre global est similaire au modèle visuel traditionnel, et la couche HCO est illustrée dans la figure 2 (b).
Résultats expérimentaux
Classification ImageNet
vHeat-T a réalisé une performance de 82,2%, dépassant DeiT-S de 2,4% et Vim-S de 1,7 %, Swin-T atteint 0,9 %. vHeat-S a réalisé une performance de 83,6%, dépassant Swin-S de 0,6% et ConvNeXt-S de 0,5%. vHeat-B a réalisé une performance de 83,9%, dépassant DeiT-B de 2,1% et Swin-B de 0,4%.
Tâches en aval
Sur l'ensemble de données COCO, vHeat présente également un avantage en termes de performances : dans le cas d'un réglage fin de 12 époques, vHeat-T/S/B atteint respectivement 45,1/46,8/47,7 mAP, dépassant Il dépasse Swin-T/S/B pour atteindre 2,4/2,0/0,8 mAP, et dépasse ConvNeXt-T/S/B pour atteindre 0,9/1,4/0,7 mAP. Sur l'ensemble de données ADE20K, vHeat-T/S/B a atteint respectivement 46,9/49,0/49,6 mIoU, ce qui offre toujours de meilleures performances que Swin et ConvNeXt. Ces résultats vérifient que vHeat fonctionne pleinement dans les expériences visuelles en aval, démontrant le potentiel de remplacer les modèles visuels de base traditionnels.
Expérience d'analyse
Champ récepteur efficace
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble

Le premier grand modèle d'interface utilisateur en Chine est lancé ! Le grand modèle de Motiff crée le meilleur assistant pour les concepteurs et optimise le flux de travail de conception d'interface utilisateur
