Maison

Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme d'attention et présente à la fois une faible complexité et un champ de réception global.

Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme d'attention et présente à la fois une faible complexité et un champ de réception global.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2024 pm 05:28 PM

产业 vHeat modèle de représentation visuelle

Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global.

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Email de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

L'auteur de cet article est l'équipe originale de VMamba, parmi laquelle le premier auteur Wang Zhaozhi est co-diplômé en 2022 de l'Université de Liu Yue, doctorante et co-auteure de l'Académie chinoise des sciences et du laboratoire Pengcheng, est candidate directe au doctorat en 2021 à l'Université de l'Académie chinoise des sciences. Leurs principaux axes de recherche sont la conception de modèles visuels et l’apprentissage auto-supervisé.

Comment briser le mécanisme d'attention de Transformer ? L'Université de l'Académie chinoise des sciences et le Laboratoire national de Pengcheng ont proposé un modèle de représentation visuelle vHeat basé sur la conduction thermique. Traitez le bloc de caractéristiques de l'image comme une source de chaleur et extrayez les caractéristiques de l'image en prédisant la conductivité thermique et en vous basant sur le conduction thermique physiqueprincipe. Par rapport au modèle visuel basé sur le mécanisme Attention, vHeat prend en compte à la fois : la complexité informatique (puissance 1,5), le champ récepteur global et l'interprétabilité physique.

Lorsque vous utilisez vHeat-base+%E6%A8%A1%E5%9E%8B pour une entrée d'image haute résolution, le put, l'utilisation de la mémoire GPU et les flops sont respectivement Swin-base+%E6%A8%A1%E5%9E . 3 fois, 1/4, 3/4 de %8B. Il a atteint des performances avancées sur les tâches de base en aval telles que la classification d'images, la détection de cibles et la segmentation sémantique/instance.

Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global.

Adresse du papier : https://arxiv.org/pdf/2405.16555
Adresse du code : https://github.com/MzeroMiko/vHeat
Titre du papier : vHeat : Building Vision Modèles par conduction thermique

Vue d'ensemble

Les deux modèles visuels de base les plus courants actuellement sont CNN et Visual Transformer (ViT). Cependant, les performances de CNN sont limitées par les champs récepteurs locaux et les opérateurs de noyau à convolution fixes. ViT a la capacité de représenter des dépendances globales, mais au prix d’une complexité informatique élevée en normes quadratiques. Nous pensons que les opérateurs de convolution et les opérateurs d'auto-attention de CNN et ViT sont tous deux des processus de transfert de pixels au sein de caractéristiques, qui sont respectivement une forme de transfert d'informations, qui nous rappelle également la conduction thermique dans le domaine physique. Ainsi, sur la base de l'équation de conduction thermique, nous avons relié la propagation spatiale de la sémantique visuelle à la conduction physique de la chaleur, proposé un opérateur de conduction visuelle (Heat Conduction Operator, HCO) avec une complexité de calcul de 1,5 puissance, puis conçu un opérateur de conduction thermique avec une faible représentation visuelle. modélisez vHeat pour la complexité, le champ récepteur global et l’interprétabilité physique. Le formulaire de calcul et la comparaison de la complexité entre HCO et l'auto-attention sont présentés dans la figure ci-dessous. Des expériences ont prouvé que vHeat fonctionne bien dans diverses tâches visuelles. Par exemple, vHeat-T atteint une précision de classification de 82,2 % sur ImageNet-1K, soit 0,9 % de plus que Swin-T et 1,7 % de plus que ViM-S. En plus des performances, vHeat présente également les avantages d'une vitesse d'inférence élevée, d'une faible utilisation de la mémoire GPU et de faibles FLOP. Lorsque la résolution de l'image d'entrée est élevée, le modèle vHeat à l'échelle de base n'a qu'un tiers de débit en plus, un quart d'utilisation de la mémoire GPU et 3/4 FLOP par rapport à Swin.

Introduction à la méthode

Utilisez

pour représenter la température du point Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. au temps t. L'équation physique de conduction thermique est , où k>0 représente la diffusivité thermique. Étant donné les conditions initiales Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. au temps t=0, l'équation de conduction thermique peut être résolue à l'aide de la transformée de Fourier, qui s'exprime comme suit : Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global.

où Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. et représentent respectivement la transformée de Fourier et la transformée de Fourier inverse, et Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. représente les coordonnées spatiales du domaine fréquentiel.

Nous utilisons HCO pour implémenter la conduction thermique dans la sémantique visuelle. Tout d'abord, nous étendons Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. dans l'équation physique de conduction thermique en une fonctionnalité multicanal Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. . Nous considérons comme une entrée et comme une sortie. sous forme discrétisée, comme suit La formule est représentée :

De plus, nous pensons que différents contenus d'image doivent correspondre à différentes diffusivités thermiques. Considérant que la sortie de Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. est dans le domaine fréquentiel, nous déterminons la diffusivité thermique en fonction de la valeur de fréquence, Le modèle de représentation visuelle vHeat inspiré du transfert de chaleur physique est ici. Il tente de briser le mécanisme dattention et présente à la fois une faible complexité et un champ de réception global. . Étant donné que différentes positions dans le domaine fréquentiel représentent différentes valeurs de fréquence, nous proposons des incorporations de valeurs de fréquence (FVE) pour représenter les informations sur les valeurs de fréquence, ce qui est similaire à la mise en œuvre et à la fonction du codage de position absolue dans ViT, et utilisons les FVE pour contrôler la diffusion de chaleur. le taux k est prédit afin que HCO puisse effectuer une conduction non uniforme et adaptative, comme le montre la figure ci-dessous.

vHeat est implémenté à l'aide d'une structure à plusieurs niveaux, comme le montre la figure ci-dessous. Le cadre global est similaire au modèle visuel traditionnel, et la couche HCO est illustrée dans la figure 2 (b).

Résultats expérimentaux

Classification ImageNet

En comparant les résultats expérimentaux, il est facile de voir que sous des paramètres et des FLOP similaires :

vHeat-T a réalisé une performance de 82,2%, dépassant DeiT-S de 2,4% et Vim-S de 1,7 %, Swin-T atteint 0,9 %.
vHeat-S a réalisé une performance de 83,6%, dépassant Swin-S de 0,6% et ConvNeXt-S de 0,5%.
vHeat-B a réalisé une performance de 83,9%, dépassant DeiT-B de 2,1% et Swin-B de 0,4%.

Dans le même temps, en raison de la faible complexité de vHeat O (N ^ 1,5) et du calcul parallèle, le débit d'inférence présente des avantages évidents par rapport aux modèles ViT et SSM, tels que le débit d'inférence de vHeat-T It. est 1514 img/s, soit 22% supérieur à Swin-T, 87% supérieur à Vim-S et 26% supérieur à ConvNeXt-T, tout en ayant de meilleures performances.

Tâches en aval

Sur l'ensemble de données COCO, vHeat présente également un avantage en termes de performances : dans le cas d'un réglage fin de 12 époques, vHeat-T/S/B atteint respectivement 45,1/46,8/47,7 mAP, dépassant Il dépasse Swin-T/S/B pour atteindre 2,4/2,0/0,8 mAP, et dépasse ConvNeXt-T/S/B pour atteindre 0,9/1,4/0,7 mAP. Sur l'ensemble de données ADE20K, vHeat-T/S/B a atteint respectivement 46,9/49,0/49,6 mIoU, ce qui offre toujours de meilleures performances que Swin et ConvNeXt. Ces résultats vérifient que vHeat fonctionne pleinement dans les expériences visuelles en aval, démontrant le potentiel de remplacer les modèles visuels de base traditionnels.

Expérience d'analyse

Champ récepteur efficace

vHeat a un champ récepteur efficace global Parmi les modèles traditionnels de comparaison visuelle, seuls DeiT et HiViT ont également cette fonctionnalité. Cependant, il convient de noter que le coût de DeiT et HiViT est un niveau de complexité carré, tandis que vHeat est un niveau de complexité de 1,5 puissance.

Coût de calcul

L'image ci-dessus de gauche à droite montre la comparaison du débit d'inférence/de l'utilisation de la mémoire GPU/des FLOP de calcul de vHeat-B et d'autres modèles basés sur ViT à l'échelle de base. On peut clairement voir qu'en raison de la complexité de calcul de O (N ^ 1,5), vHeat a une vitesse d'inférence plus rapide, une utilisation de la mémoire inférieure et moins de FLOP que les modèles contrastés, et lorsque la résolution de l'image est plus grande, les avantages seront plus évident. Lorsque l'image d'entrée a une résolution de 768*768, le débit d'inférence de vHeat-B est d'environ 3 fois celui de Swin-B, l'utilisation de la mémoire GPU est 74 % inférieure à celle de Swin-B et les FLOP sont 28 inférieur à celui de Swin-B %. La comparaison du coût de calcul des modèles basés sur vHeat et ViT démontre son excellent potentiel dans le traitement d'images haute résolution.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Repo: Comment relancer ses coéquipiers

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Comment obtenir des graines géantes

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Combien de temps faut-il pour battre Split Fiction?

3 Il y a quelques semaines By DDD

R.E.P.O. Enregistrer l'emplacement du fichier: où est-il et comment le protéger?

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7315

Tutoriel Java

1625

Tutoriel CakePHP

1348

Tutoriel Laravel

1261

Tutoriel PHP

1208

Afficher plus

Related knowledge

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble

Le premier grand modèle d'interface utilisateur en Chine est lancé ! Le grand modèle de Motiff crée le meilleur assistant pour les concepteurs et optimise le flux de travail de conception d'interface utilisateur Aug 19, 2024 pm 04:48 PM

See all articles