CVPR 2024 | La segmentation de tous les modèles a une faible capacité de généralisation du SAM ? Stratégie d'adaptation de domaine résolue-IA-php.cn

Maison

CVPR 2024 | La segmentation de tous les modèles a une faible capacité de généralisation du SAM ? Stratégie d'adaptation de domaine résolue

王林

Apr 09, 2024 pm 04:55 PM

git 工程内存占用

La première stratégie d'adaptation de domaine pour le grand modèle "Segment Anything" est là ! Les articles connexes ont été acceptés par CVPR 2024. Le succès des grands modèles de langage (LLM) a inspiré le domaine de la vision par ordinateur à explorer les modèles de base pour la segmentation. Ces modèles de segmentation de base sont généralement utilisés pour la segmentation de zéro/quelques images via Prompt Engineer. Parmi eux, Segment Anything Model (SAM) est le modèle de base le plus avancé pour la segmentation d’images.个 Tu SAM a obtenu de mauvais résultats sur plusieurs tâches en aval. Mais des recherches récentes montrent que SAM n'est pas très puissant et généralisé dans de nombreuses tâches en aval, comme de mauvaises performances dans des domaines tels que les images médicales, les objets camouflés et les images naturelles avec des interférences supplémentaires. Cela peut être dû au grand
Domain Shift
entre l'ensemble de données d'entraînement et l'ensemble de données de test en aval. Par conséquent, une question très importante est de savoir comment concevoir un schéma d’adaptation de domaine pour rendre SAM plus robuste face au monde réel et aux diverses tâches en aval ?

Adapter SAM pré-entraîné aux tâches en aval se heurte principalement à trois défis :

Premièrement, le paradigme traditionnel d'adaptation de domaine non supervisé nécessite un

ensemble de données source

et un ensemble de données cible, en raison de la confidentialité et des coûts de calcul sont moindres. réalisable.

CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

Deuxièmement, pour l'adaptation du domaine, la mise à jour de tous les poids fonctionne généralement mieux, mais est également limitée par des

coûts de mémoire coûteux.

Enfin, SAM peut démontrer diverses capacités de segmentation pour des invites de différents types et granularités, donc

en cas de manque d'informations sur les invites pour les tâches en aval
, l'adaptation non supervisée sera très difficile.大 Figure 1 SAM est un pré-entraînement sur des ensembles de données à grande échelle, mais il existe un problème de généralisation. Nous utilisons une supervision faible pour adapter SAM sur diverses tâches en aval

afin d'améliorer la robustesse adaptative

et l'efficacité informatique .

Plus précisément, nous adoptons d'abord une stratégie d'auto-formation dans le domaine passif pour éviter la dépendance aux données sources. L'auto-formation génère des pseudo-étiquettes pour superviser les mises à jour du modèle, mais elles sont sensibles aux pseudo-étiquettes incorrectes. Nous introduisons le

modèle source gelé comme réseau d'ancrage

pour standardiser les mises à jour du modèle.

Pour réduire davantage le coût de calcul élevé lié à la mise à jour des poids complets du modèle, nous appliquons une
décomposition des poids de bas rang à l'encodeur et effectuons une rétropropagation via un chemin de raccourci de bas rang.
Enfin, afin d'améliorer encore l'effet de l'adaptation passive du domaine, nous introduisons une supervision faible, telle que des annotations de points clairsemées, dans le domaine cible pour fournir en même temps des informations d'adaptation de domaine plus fortes. Ce type de supervision faible est naturellement compatible avec l'encodeur de repère dans SAM.
Avec un encadrement faible comme Prompt, nous obtenons des pseudo labels auto-formés plus locaux et explicites. Le modèle optimisé montre une capacité de généralisation plus forte sur plusieurs tâches en aval.

Nous résumons les contributions de ce travail comme suit : CVPR 2024 | 分割一切模型SAM泛化能力差？域适应策略给解决了

^{1 Inspirés par le problème de généralisation du SAM dans les tâches en aval, nous proposons une solution indépendante des tâches et ne nécessitant pas de données sources, par. S'entraîner automatiquement pour s'adapter au SAM.}2. Nous utilisons une supervision faible, y compris des cases, des points et d'autres étiquettes, pour améliorer l'effet adaptatif. Ces étiquettes faiblement supervisées sont entièrement compatibles avec l'encodeur d'invite de SAM.

3. Nous menons des expériences approfondies sur 5 types de tâches de segmentation d'instances en aval pour démontrer l'efficacité de la méthode adaptative faiblement supervisée proposée.

Adresse de l'article : https://arxiv.org/pdf/2312.03502.pdf

Adresse du projet : https://github.com/Zhang-Haojie/WeSAM

Titre de l'article : Améliorer la généralisation de Modèle de base de segmentation sous changement de distribution via une adaptation faiblement supervisée

Basé sur auto-formation Comment le cadre adaptatif
une supervision faible aide à parvenir à une auto-formation efficace

mise à jour du poids de faible rang

1. Segmenter n'importe quel modèle

SAM consiste principalement de trois composants Composition :
Image Encoder (ImageEncoder), Prompt Encoder (PromptEncoder) et Decoder (MaskDecoder)
.

L'encodeur d'image est pré-entraîné à l'aide de MAE, et l'ensemble du SAM est affiné davantage sur l'ensemble d'entraînement SA-1B avec 1,1 milliard d'annotations. Une combinaison de perte focale et de perte de dés est utilisée pendant l'entraînement. Au moment de l'inférence, une image de test x est d'abord codée par un encodeur d'image, puis, à l'invite, un décodeur léger effectue trois niveaux de prédictions.

2. Auto-formation sur l'adaptation de domaine sans source

Auto-formation adaptée au domaine

Pour l'ensemble de données cible non étiqueté DT={xi} et le pré- modèle de segmentation entraîné. Nous utilisons l'architecture
élève-enseignant pour l'auto-formation
. Comme le montre la figure 2, nous maintenons trois réseaux d'encodeurs, à savoir le modèle d'ancrage, le modèle d'étudiant et le modèle d'enseignant, où les modèles d'étudiant et d'enseignant partagent des poids.

Plus précisément, pour chaque échantillon xi, une augmentation aléatoire des données faibles est appliquée comme entrée des modèles d'ancrage et d'enseignant, une augmentation aléatoire des données fortes est appliquée comme entrée du modèle étudiant, et trois encodages de réseau d'encodeurs sont généré trois cartes de fonctionnalités.
Dans le réseau de décodeur, étant donné un certain nombre Np d'invites, telles qu'une boîte, un point ou un masque grossier, un ensemble de masques de segmentation d'instance sera déduit.

Sur la base des connaissances ci-dessus, nous développons ci-dessous les trois ensembles d'objectifs d'optimisation pour l'auto-formation.

1) Auto-formation élève-enseignant
Nous mettons d'abord à jour le modèle élève/enseignant en utilisant la même fonction de perte utilisée lors de la formation de SAM comme objectif d'optimisation de l'auto-formation. L’autoformation est largement utilisée dans l’apprentissage semi-supervisé et s’est récemment révélée très efficace pour l’adaptation passive au domaine. Plus précisément, nous utilisons les résultats de prédiction générés par le modèle de l'enseignant comme pseudo-étiquettes, et utilisons la perte focale et la perte de dés pour superviser la production des élèves.
2) Perte d'ancrage pour une régularisation robuste
L'entraînement en réseau utilisant uniquement la perte d'auto-entraînement est sensible à l'accumulation de faux pseudo-étiquettes prédits par le réseau d'enseignants, ce qu'on appelle le biais de confirmation. Les observations montrent également que les performances se dégradent après de longues itérations utilisant uniquement l'auto-formation. Les méthodes d'adaptation de domaine passives existantes emploient souvent des contraintes supplémentaires pour éviter les effets négatifs de l'auto-formation, telles qu'une distribution uniforme des prédictions.
Nous effectuons une régularisation par perte d'ancre, comme le montre l'équation 3,
minimise la perte de dés
entre le modèle d'ancre et le modèle étudiant/enseignant respectivement. Le modèle d'ancrage gelé, en tant que connaissance héritée du domaine source, n'encourage pas un écart excessif entre le modèle source et le modèle de mise à jour d'auto-apprentissage, et peut empêcher l'effondrement du modèle.

3) Espace de fonctionnalité d'encodeur régularisé à perte de contraste
下 Comparaison perte des deux branches de la figure 3

Les deux objectifs d'entraînement ci-dessus sont effectués dans l'espace de sortie du décodeur. La partie expérimentale révèle que la mise à jour du réseau d'encodeurs est le moyen le plus efficace d'adapter SAM, il est donc nécessaire d'appliquer directement la régularisation aux caractéristiques sorties du réseau d'encodeurs
. Comme le montre la figure 3, nous recadrons les caractéristiques de chaque instance à partir de la carte des caractéristiques en fonction du masque prédit dans les branches d'ancrage et d'enseignant.
Nous définissons plus en détail les paires d'échantillons positifs et négatifs dans la perte de contraste. Les paires d'échantillons positives sont construites à partir des caractéristiques d'instance correspondant à la même invite dans les deux branches, tandis que les paires d'échantillons négatives sont construites à partir des caractéristiques d'instance. correspondant à différentes invites de. La perte de contraste finale est indiquée ci-dessous, où

est le coefficient de température.

4) Perte totale

Nous combinons les trois fonctions de perte ci-dessus dans la perte adaptative finale sans source.

3. Génération d'invites auto-formée

La segmentation SAM nécessite une entrée d'invite pour indiquer l'objet cible à segmenter, mais il peut y avoir des problèmes d'ambiguïté granulaire. Les projets Prompt peuvent être mis en œuvre de manière entièrement automatisée ou via une interaction humaine.

1) Générer une invite de manière entièrement automatique

Nous utilisons d'abord les points d'échantillonnage denses de la grille comme entrée rapide, générons les masques pour la segmentation de l'étape initiale via le modèle Anchor, éliminons les masques avec de faibles scores d'IoU et de stabilité, puis continuez. La suppression non maximale est utilisée pour obtenir les résultats de segmentation. Ensuite, un ensemble fixe d'invites est généré à partir des masques finaux comme entrée d'invite pour les trois branches. Par conséquent, les longueurs de masque des trois sorties de segmentation de réseau sont les mêmes et présentent une correspondance exacte biunivoque.

2) Faible supervision des invites

Bien que les invites puissent être obtenues en utilisant un échantillonnage en grille sur l'image et en filtrant les masques de mauvaise qualité et en double pour une segmentation automatique. Mais ces segmentations sont de relativement mauvaise qualité, peuvent contenir de nombreuses prédictions faussement positives et ont une granularité peu claire. La qualité des invites qui en résulte est inégale, ce qui rend l'auto-formation moins efficace.

Par conséquent, en nous appuyant sur des travaux antérieurs d'adaptation de domaine faiblement supervisés, nous proposons d'utiliser trois méthodes faiblement supervisées, notamment la boîte englobante, le point d'annotation de point clairsemé et le masque grossier de polygone de segmentation grossière. Dans SAM, ces méthodes de supervision faibles correspondent parfaitement à une saisie rapide, et une supervision faible peut être intégrée de manière transparente pour s'adapter à SAM.

4. Mise à jour du poids de bas rang

L'énorme réseau d'encodeurs du modèle de base rend extrêmement difficile la mise à jour des poids de tous les modèles. Cependant, de nombreuses études existantes montrent que la mise à jour des pondérations du réseau d'encodeurs est un moyen efficace d'ajuster les modèles pré-entraînés.

Pour pouvoir mettre à jour le réseau d'encodeurs de manière plus efficace et plus rentable, nous avons choisi une méthode de mise à jour de bas rang conviviale sur le plan informatique. Pour chaque poids θ dans le réseau de codeurs, nous utilisons une approximation de bas rang ω = AB et définissons un taux de compression r. Seuls A et B sont mis à jour via rétropropagation pour réduire l'utilisation de la mémoire. Pendant la phase d'inférence, les poids sont reconstruits en combinant l'approximation de bas rang avec les poids d'origine, c'est-à-dire θ = θ + AB.

Expériences

Dans les expériences, nous fournissons des comparaisons détaillées avec des méthodes de pointe et des résultats qualitatifs. Enfin, nous analysons l’efficacité de chaque partie et la conception spécifique du réseau.

1. Ensemble de données

Dans ce travail, nous évaluons cinq types différents de tâches de segmentation en aval, dont certaines présentent des changements de distribution importants par rapport à SA-1B. L'ensemble de données couvre des images naturelles claires, des images naturelles avec des interférences supplémentaires, des images médicales, des objets camouflés et des images de robots, soit un total de 10 types.

Partitionnement des données : chaque ensemble de données en aval est divisé en ensembles d'apprentissage et en ensembles de test qui ne se chevauchent pas.

Le tableau 1 répertorie les ensembles de données sur lesquels chaque type de tâche en aval a été évalué, ainsi que la répartition des ensembles de données de formation et de test.

2. Détails expérimentaux

Modèle Segment-Anything : En raison de limitations de mémoire, nous adoptons ViT-B comme réseau d'encodeurs. Utilisez un encodeur d'indices standard et un décodeur de masque.

Génération d'invites : les entrées d'invites pour les phases de formation et d'évaluation sont calculées à partir des masques GT de segmentation d'instance, simulant l'interaction humaine sous forme de supervision faible.

Plus précisément, nous extrayons la boîte de la boîte englobante minimale de l'ensemble du masque GT. Les points sont créés en sélectionnant au hasard 5 points d'échantillonnage positifs dans le masque GT et 5 points d'échantillonnage négatifs à l'extérieur du masque. Les masques grossiers sont simulés en ajustant les polygones aux masques GT.

3. Résultats expérimentaux

Les tableaux 2, 3, 4 et 5 sont respectivement les résultats des tests sur les images naturelles avec interférences supplémentaires, les images naturelles claires, les images médicales et les ensembles de données d'objets camouflés. Les résultats expérimentaux complets peuvent être trouvés dans l'article. Les expériences démontrent que notre schéma surpasse les schémas SAM pré-entraînés et d'adaptation de domaine de pointe sur presque tous les ensembles de données de segmentation en aval.

4. Résultats de visualisation

Une partie des résultats de visualisation est présentée dans la figure 4, et d'autres résultats de visualisation peuvent être trouvés dans l'article. Figure 4 Résultats de visualisation de quelques exemples
5. Expériences d'ablation et analyses complémentaires

Nous sommes sur l'ensemble de données COCO L'efficacité de chacun des trois objectifs d'optimisation d'auto-entraînement est analysée, comme le montre le tableau 7. . Dans le tableau 7, nous analysons également l'effet de la méthode proposée sur l'adaptation sans utiliser d'informations de supervision faibles.

Nous avons analysé la différence de performances entre l'entraînement et les tests en utilisant différentes catégories d'invites, comme le montre le tableau 8. Les expériences montrent que notre schéma fonctionne toujours bien dans des conditions d'invites croisées.
De plus, nous avons également analysé les résultats expérimentaux d'optimisation de différents modules, y compris les décodeurs, LayerNorm et différents schémas de réglage fin, ainsi que leurs combinaisons, et leurs expériences ont prouvé que le schéma LoRA de l'encodeur de réglage fin a le meilleur effet.
Résumé

Bien que le modèle de vision de base puisse bien fonctionner sur les tâches de segmentation, il souffre toujours de mauvaises performances dans les tâches en aval. Nous étudions la capacité de généralisation du modèle Segment-Anything dans plusieurs tâches de segmentation d'images en aval et proposons une méthode d'auto-entraînement basée sur la régularisation des ancres et le réglage fin de bas rang. Cette méthode ne nécessite pas d'accès à l'ensemble de données source, a un faible coût en mémoire, est naturellement compatible avec une supervision faible et peut améliorer considérablement l'effet adaptatif. Après une vérification expérimentale approfondie, les résultats montrent que la méthode d'adaptation de domaine proposée peut améliorer considérablement la capacité de généralisation du SAM sous divers changements de distribution.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

1 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7448

Tutoriel CakePHP

1374

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Quelles bibliothèques sont utilisées pour les opérations du numéro de point flottantes en Go? Apr 02, 2025 pm 02:06 PM

La bibliothèque utilisée pour le fonctionnement du numéro de point flottante dans le langage go présente comment s'assurer que la précision est ...

Gitee Pages STATIQUE Le déploiement du site Web a échoué: comment dépanner et résoudre les erreurs de fichier unique 404? Apr 04, 2025 pm 11:54 PM

GiteEpages STATIQUE Le déploiement du site Web a échoué: 404 Dépannage des erreurs et résolution lors de l'utilisation de Gitee ...

Quelles bibliothèques de GO sont développées par de grandes entreprises ou fournies par des projets open source bien connus? Apr 02, 2025 pm 04:12 PM

Quelles bibliothèques de GO sont développées par de grandes entreprises ou des projets open source bien connus? Lors de la programmation en Go, les développeurs rencontrent souvent des besoins communs, ...

Comment exécuter le projet H5 Apr 06, 2025 pm 12:21 PM

L'exécution du projet H5 nécessite les étapes suivantes: Installation des outils nécessaires tels que le serveur Web, Node.js, les outils de développement, etc. Créez un environnement de développement, créez des dossiers de projet, initialisez les projets et écrivez du code. Démarrez le serveur de développement et exécutez la commande à l'aide de la ligne de commande. Aperçu du projet dans votre navigateur et entrez l'URL du serveur de développement. Publier des projets, optimiser le code, déployer des projets et configurer la configuration du serveur Web.

Comment spécifier la base de données associée au modèle de Beego ORM? Apr 02, 2025 pm 03:54 PM

Dans le cadre du cadre de beegoorm, comment spécifier la base de données associée au modèle? De nombreux projets Beego nécessitent que plusieurs bases de données soient opérées simultanément. Lorsque vous utilisez Beego ...

La production de pages H5 nécessite-t-elle une maintenance continue? Apr 05, 2025 pm 11:27 PM

La page H5 doit être maintenue en continu, en raison de facteurs tels que les vulnérabilités du code, la compatibilité des navigateurs, l'optimisation des performances, les mises à jour de sécurité et les améliorations de l'expérience utilisateur. Des méthodes de maintenance efficaces comprennent l'établissement d'un système de test complet, à l'aide d'outils de contrôle de version, de surveiller régulièrement les performances de la page, de collecter les commentaires des utilisateurs et de formuler des plans de maintenance.

Comment résoudre le problème de conversion de type user_id lors de l'utilisation du flux redis pour implémenter les files d'attente de messages dans le langage Go? Apr 02, 2025 pm 04:54 PM

Le problème de l'utilisation de Redessstream pour implémenter les files d'attente de messages dans le langage GO consiste à utiliser le langage GO et redis ...

CS-semaine 3 Apr 04, 2025 am 06:06 AM

Les algorithmes sont l'ensemble des instructions pour résoudre les problèmes, et leur vitesse d'exécution et leur utilisation de la mémoire varient. En programmation, de nombreux algorithmes sont basés sur la recherche et le tri de données. Cet article présentera plusieurs algorithmes de récupération et de tri de données. La recherche linéaire suppose qu'il existe un tableau [20,500,10,5,100,1,50] et doit trouver le numéro 50. L'algorithme de recherche linéaire vérifie chaque élément du tableau un par un jusqu'à ce que la valeur cible soit trouvée ou que le tableau complet soit traversé. L'organigramme de l'algorithme est le suivant: Le pseudo-code pour la recherche linéaire est le suivant: Vérifiez chaque élément: Si la valeur cible est trouvée: return True return false C Implementation: # include # includeIntMain (void) {i

See all articles