


Papier de score parfait VPR 2024 ! Meta propose EfficientSAM : divisez tout rapidement !
EfficientSAM Ce travail a été inclus dans le CVPR 2024 avec une note parfaite de 5/5/5 ! L'auteur a partagé le résultat sur les réseaux sociaux, comme le montre l'image ci-dessous :
Le lauréat du prix LeCun Turing a également fortement recommandé ce travail !
Dans des recherches récentes, des chercheurs de Meta ont proposé une nouvelle méthode améliorée, le pré-entraînement par image masquée utilisant SAM (SAMI). Cette approche combine des techniques de pré-formation MAE et des modèles SAM pour obtenir des encodeurs ViT pré-entraînés de haute qualité. Grâce à SAMI, les chercheurs tentent d'améliorer les performances et l'efficacité du modèle et de proposer de meilleures solutions pour les tâches de vision. La proposition de cette méthode apporte de nouvelles idées et opportunités pour explorer et développer davantage les domaines de la vision par ordinateur et de l’apprentissage profond. En combinant différentes techniques de pré-formation et structures modèles, les chercheurs continuent de
- Lien papier : https://arxiv.org/pdf/2312.00863
- Code : github.com/yformer/EfficientSAM
- Page d'accueil : https://yformer.github.io/efficient-sam/
Cette approche réduit la complexité du SAM tout en conservant de bonnes performances. Plus précisément, SAMI utilise l'encodeur SAM ViT-H pour générer des intégrations de fonctionnalités et entraîne un modèle d'image de masque avec un encodeur léger, reconstruisant ainsi les fonctionnalités du ViT-H de SAM au lieu des correctifs d'image, et l'épine dorsale universelle ViT résultante peut être utilisée en aval. comme la classification d'images, la détection et la segmentation d'objets, etc. Nous utilisons ensuite le décodeur SAM pour affiner l'encodeur léger pré-entraîné afin d'effectuer toute tâche de segmentation.
Pour vérifier l'efficacité de cette méthode, les chercheurs ont utilisé un cadre d'apprentissage par transfert pré-entraîné sur des images masquées. Plus précisément, ils ont d’abord pré-entraîné le modèle avec perte de reconstruction sur l’ensemble de données ImageNet avec une résolution d’image de 224 × 224. Ils affinent ensuite le modèle à l’aide des données supervisées de la tâche cible. Cette méthode d'apprentissage par transfert peut aider le modèle à apprendre rapidement et à améliorer les performances sur de nouvelles tâches, car le modèle a appris à extraire des fonctionnalités des données d'origine tout au long de la phase de pré-formation. Cette stratégie d'apprentissage par transfert utilise efficacement les connaissances acquises sur des ensembles de données à grande échelle, ce qui facilite l'adaptation du modèle à différentes tâches. Dans le même temps, grâce à la pré-formation SAMI, ViT-Tiny/- peut être formé sur ImageNet-1K Small. /-Base et autres modèles, et améliorer les performances de généralisation. Pour le modèle ViT-Small, après 100 réglages précis sur ImageNet-1K, les chercheurs ont atteint une précision Top-1 de 82,7 %, ce qui est meilleur que les autres références de pré-entraînement d'images de pointe.
Les chercheurs ont affiné le modèle pré-entraîné sur la détection de cibles, la segmentation d'instance et la segmentation sémantique. Dans toutes ces tâches, notre méthode obtient de meilleurs résultats que les autres bases de référence pré-entraînées et, plus important encore, réalise des gains significatifs sur de petits modèles.
Yunyang Xiong, l'auteur de l'article, a déclaré : Les paramètres EfficientSAM proposés dans cet article sont réduits de 20 fois, mais le temps d'exécution est 20 fois plus rapide. La différence avec le modèle SAM d'origine n'est que de 2 points de pourcentage. , ce qui est bien meilleur que MobileSAM/FastSAM.
Dans la démo, cliquez sur l'animal dans l'image, et EfficientSAM peut rapidement segmenter l'objet :
EfficientSAM peut également identifier avec précision les personnes dans l'image :
Adresse d'essai : https://ab348ea7942fe2af48.gradio.live/
Method
EfficientSAM contient deux étapes : 1) pré-formation SAMI sur ImageNet (Partie 1) SA-1B réglage fin ; le SAM (en bas).
EfficientSAM contient principalement les composants suivants :
Décodeur d'attention croisée : sous la supervision des fonctionnalités de SAM, cet article observe que seul le jeton de masque doit être reconstruit par le décodeur, tandis que la sortie de l'encodeur peuvent être reconstruits au cours du processus de reconstruction et servent de points d’ancrage. Dans le décodeur d'attention croisée, la requête provient des jetons masqués, et les clés et valeurs sont dérivées des fonctionnalités non masquées et des fonctionnalités masquées de l'encodeur. Cet article fusionne les caractéristiques de sortie des jetons masqués du décodeur d'attention croisée et les caractéristiques de sortie des jetons non masqués de l'encodeur pour l'intégration de la sortie MAE. Ces fonctionnalités combinées seront ensuite réorganisées aux positions d'origine des jetons d'image d'entrée dans la sortie MAE finale.
Tête de projection linéaire. Nous avons ensuite introduit les sorties d'image obtenues via l'encodeur et le décodeur d'attention croisée dans une petite tête de projet pour aligner les fonctionnalités de l'encodeur d'image SAM. Par souci de simplicité, cet article utilise uniquement une tête de projection linéaire pour résoudre l'inadéquation des dimensions des caractéristiques entre l'encodeur d'image SAM et la sortie MAE.
Reconstruire les pertes. Dans chaque itération de formation, SAMI inclut l'extraction de caractéristiques directes à partir de l'encodeur d'image SAM et les processus de propagation avant et arrière du MAE. Les sorties du codeur d'image SAM et de la tête de projection linéaire MAE sont comparées pour calculer la perte de reconstruction.
Après la pré-formation, l'encodeur peut extraire des représentations de fonctionnalités pour diverses tâches visuelles, et le décodeur sera également supprimé. En particulier, afin de créer un modèle SAM efficace pour toute tâche de segmentation, cet article adopte des encodeurs légers pré-entraînés SAMI (tels que ViT-Tiny et ViT-Small) comme encodeur d'image d'EfficientSAM et décodeur de masque par défaut de SAM. , comme le montre la figure 2 (en bas). Cet article affine le modèle EfficientSAM sur l'ensemble de données SA-1B pour réaliser la segmentation de n'importe quelle tâche.
Expérience
Classification des images. Afin d'évaluer l'efficacité de cette méthode sur les tâches de classification d'images, les chercheurs ont appliqué les idées SAMI au modèle ViT et comparé leurs performances sur ImageNet-1K.
Comme le montre le tableau 1, SAMI est comparé aux méthodes de pré-formation telles que MAE, iBOT, CAE et BEiT, et aux méthodes de distillation telles que DeiT et SSTA.
La précision top1 de SAMI-B atteint 84,8 %, ce qui est supérieur à la ligne de base pré-entraînée, MAE, DMAE, iBOT, CAE et BEiT. SAMI présente également de grandes améliorations par rapport aux méthodes de distillation telles que DeiT et SSTA. Pour les modèles légers tels que ViT-Tiny et ViT-Small, les résultats SAMI montrent des gains significatifs par rapport à DeiT, SSTA, DMAE et MAE.
Détection d'objets et segmentation d'instances. Cet article étend également le squelette ViT pré-entraîné par SAMI aux tâches de détection d'objets et de segmentation d'instance en aval et le compare à une ligne de base pré-entraînée sur l'ensemble de données COCO. Comme le montre le tableau 2, SAMI surpasse systématiquement les performances des autres références.
Ces résultats expérimentaux montrent que le squelette de détecteur pré-entraîné fourni par SAMI est très efficace dans les tâches de détection d'objets et de segmentation d'instances.
Segmentation sémantique. Cet article étend davantage l'épine dorsale pré-entraînée aux tâches de segmentation sémantique pour évaluer son efficacité. Les résultats sont présentés dans le tableau 3. Mask2former utilisant le backbone pré-entraîné SAMI permet d'obtenir un meilleur mIoU sur ImageNet-1K que l'utilisation du backbone pré-entraîné MAE. Ces résultats expérimentaux vérifient que la technologie proposée dans cet article peut bien se généraliser à diverses tâches en aval.
Le tableau 4 compare les EfficientSAM avec SAM, MobileSAM et SAM-MAE-Ti. Sur COCO, EfficientSAM-Ti surpasse MobileSAM. EfficientSAM-Ti est doté de poids pré-entraînés SAMI et fonctionne également mieux que les poids pré-entraînés MAE.
De plus, EfficientSAM-S est seulement 1,5 mIoU inférieur à SAM sur la box COCO et 3,5 mIoU inférieure à SAM sur la box LVIS, avec 20 fois moins de paramètres. Cet article a également révélé qu'EfficientSAM affichait également de bonnes performances en plusieurs clics par rapport à MobileSAM et SAM-MAE-Ti.
Le tableau 5 montre les AP, APS, APM et APL de la segmentation des instances sans tir. Les chercheurs ont comparé EfficientSAM avec MobileSAM et FastSAM, et on peut constater que par rapport à FastSAM, EfficientSAM-S a gagné plus de 6,5 AP sur COCO et 7,8 AP sur LVIS. Dans le cas d'EffidientSAM-Ti, il est toujours nettement meilleur que FastSAM, avec 4,1 AP sur COCO et 5,3 AP sur LVIS, tandis que MobileSAM a 3,6 AP sur COCO et 5,5 AP sur LVIS.
De plus, EfficientSAM est beaucoup plus léger que FastSAM, les paramètres d'efficaceSAM-Ti sont de 9,8M, tandis que les paramètres de FastSAM sont de 68M.
Les figures 3, 4 et 5 fournissent des résultats qualitatifs afin que les lecteurs puissent avoir une compréhension supplémentaire des capacités de segmentation d'instance d'EfficientSAM.
Pour plus de détails sur la recherche, veuillez vous référer à l'article original.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds



0. À quoi sert cet article ? Nous proposons DepthFM : un modèle d'estimation de profondeur monoculaire génératif de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur. DepthFM est efficace et peut synthétiser des cartes de profondeur en quelques étapes d'inférence. Lisons ce travail ensemble ~ 1. Titre des informations sur l'article : DepthFM : FastMonocularDepthEstimationwithFlowMatching Auteur : MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

À temps pour la Fête du Printemps, la version 1.5 du modèle Tongyi Qianwen (Qwen) est en ligne. Ce matin, la nouvelle de la nouvelle version a attiré l'attention de la communauté IA. La nouvelle version du grand modèle comprend six tailles de modèle : 0,5B, 1,8B, 4B, 7B, 14B et 72B. Parmi eux, les performances de la version la plus puissante surpassent GPT3.5 et Mistral-Medium. Cette version inclut le modèle de base et le modèle Chat et fournit une prise en charge multilingue. L'équipe Tongyi Qianwen d'Alibaba a déclaré que la technologie pertinente avait également été lancée sur le site officiel de Tongyi Qianwen et sur l'application Tongyi Qianwen. De plus, la version actuelle de Qwen 1.5 présente également les points forts suivants : prend en charge une longueur de contexte de 32 Ko ; ouvre le point de contrôle du modèle Base+Chat ;

Les réseaux actuels de détection des contours profonds adoptent généralement une architecture d'encodeur-décodeur, qui contient des modules d'échantillonnage ascendant et descendant pour mieux extraire les fonctionnalités à plusieurs niveaux. Cependant, cette structure limite le réseau à produire des résultats de détection de contour précis et détaillés. En réponse à ce problème, un article sur AAAI2024 propose une nouvelle solution. Titre de la thèse : DiffusionEdge : DiffusionProbabilisticModelforCrispEdgeDetection Auteurs : Ye Yunfan (Université nationale de technologie de la défense), Xu Kai (Université nationale de technologie de la défense), Huang Yuxing (Université nationale de technologie de la défense), Yi Renjiao (Université nationale de technologie de la défense), Cai Zhiping (Université nationale de technologie de la défense) Lien vers l'article : https ://ar

Les grands modèles de langage (LLM) comportent généralement des milliards de paramètres et sont formés sur des milliards de jetons. Cependant, ces modèles sont très coûteux à former et à déployer. Afin de réduire les besoins de calcul, diverses techniques de compression de modèles sont souvent utilisées. Ces techniques de compression de modèles peuvent généralement être divisées en quatre catégories : distillation, décomposition tensorielle (y compris la factorisation de bas rang), élagage et quantification. Les méthodes d'élagage existent depuis un certain temps, mais beaucoup nécessitent un réglage fin de la récupération (RFT) après l'élagage pour maintenir les performances, ce qui rend l'ensemble du processus coûteux et difficile à faire évoluer. Des chercheurs de l'ETH Zurich et de Microsoft ont proposé une solution à ce problème appelée SliceGPT. L'idée principale de cette méthode est de réduire l'intégration du réseau en supprimant des lignes et des colonnes dans la matrice de pondération.

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Je pleure à mort. Le monde construit à la folie de grands modèles. Les données sur Internet ne suffisent pas du tout. Le modèle de formation ressemble à « The Hunger Games », et les chercheurs en IA du monde entier se demandent comment nourrir ces personnes avides de données. Ce problème est particulièrement important dans les tâches multimodales. À une époque où rien ne pouvait être fait, une équipe de start-up du département de l'Université Renmin de Chine a utilisé son propre nouveau modèle pour devenir la première en Chine à faire de « l'auto-alimentation des données générées par le modèle » une réalité. De plus, il s’agit d’une approche à deux volets, du côté compréhension et du côté génération, les deux côtés peuvent générer de nouvelles données multimodales de haute qualité et fournir un retour de données au modèle lui-même. Qu'est-ce qu'un modèle ? Awaker 1.0, un grand modèle multimodal qui vient d'apparaître sur le Forum Zhongguancun. Qui est l'équipe ? Moteur Sophon. Fondé par Gao Yizhao, doctorant à la Hillhouse School of Artificial Intelligence de l’Université Renmin.

Quoi? Zootopie est-elle concrétisée par l’IA domestique ? Avec la vidéo est exposé un nouveau modèle de génération vidéo domestique à grande échelle appelé « Keling ». Sora utilise une voie technique similaire et combine un certain nombre d'innovations technologiques auto-développées pour produire des vidéos qui comportent non seulement des mouvements larges et raisonnables, mais qui simulent également les caractéristiques du monde physique et possèdent de fortes capacités de combinaison conceptuelle et d'imagination. Selon les données, Keling prend en charge la génération de vidéos ultra-longues allant jusqu'à 2 minutes à 30 ips, avec des résolutions allant jusqu'à 1080p, et prend en charge plusieurs formats d'image. Un autre point important est que Keling n'est pas une démo ou une démonstration de résultats vidéo publiée par le laboratoire, mais une application au niveau produit lancée par Kuaishou, un acteur leader dans le domaine de la vidéo courte. De plus, l'objectif principal est d'être pragmatique, de ne pas faire de chèques en blanc et de se mettre en ligne dès sa sortie. Le grand modèle de Ke Ling est déjà sorti à Kuaiying.

Récemment, le milieu militaire a été submergé par la nouvelle : les avions de combat militaires américains peuvent désormais mener des combats aériens entièrement automatiques grâce à l'IA. Oui, tout récemment, l’avion de combat IA de l’armée américaine a été rendu public pour la première fois, dévoilant ainsi son mystère. Le nom complet de ce chasseur est Variable Stability Simulator Test Aircraft (VISTA). Il a été personnellement piloté par le secrétaire de l'US Air Force pour simuler une bataille aérienne en tête-à-tête. Le 2 mai, le secrétaire de l'US Air Force, Frank Kendall, a décollé à bord d'un X-62AVISTA à la base aérienne d'Edwards. Notez que pendant le vol d'une heure, toutes les actions de vol ont été effectuées de manière autonome par l'IA ! Kendall a déclaré : "Au cours des dernières décennies, nous avons réfléchi au potentiel illimité du combat air-air autonome, mais cela a toujours semblé hors de portée." Mais maintenant,
