ICLR 2024 Spotlight | L'exploration d'étiquettes négatives facilite les tâches de détection de non-distribution basées sur CLIP-IA-php.cn

Table des matières

Connaissances préliminaires

Introduction à la méthode

Résultats expérimentaux

Maison

Périphériques technologiques

ICLR 2024 Spotlight | L'exploration d'étiquettes négatives facilite les tâches de détection de non-distribution basées sur CLIP

PHPz

May 06, 2024 pm 06:04 PM

git 理论

Alors que les modèles d'apprentissage automatique sont de plus en plus utilisés dans les scénarios de monde ouvert, la manière d'identifier et de traiter efficacement les données hors distribution (OOD) est devenue un domaine de recherche important. La présence de données non distribuées peut conduire à un excès de confiance dans le modèle et à des prédictions incorrectes, ce qui est particulièrement dangereux dans les applications critiques pour la sécurité telles que la conduite autonome et les diagnostics médicaux. Par conséquent, le développement d’un mécanisme de détection OOD efficace est crucial pour améliorer la sécurité et la fiabilité du modèle dans les applications pratiques.

Les méthodes de détection OOD traditionnelles se concentrent principalement sur un seul modèle, en particulier les données d'image, tout en ignorant d'autres sources d'informations potentiellement utiles, telles que les données textuelles. Avec l'essor des modèles de langage visuel (VLM), ils ont démontré de solides performances dans des scénarios d'apprentissage multimodaux, en particulier dans les tâches qui nécessitent une compréhension simultanée des images et des descriptions textuelles associées. Les méthodes de détection OOD existantes basées sur les VLM [3, 4, 5] utilisent uniquement les informations sémantiques des balises d'identification, ignorant la puissante capacité d'échantillon zéro du modèle VLM et l'espace sémantique très large que les VLM peuvent expliquer. Sur cette base, nous pensons que les VLM ont un énorme potentiel inexploité en matière de détection OOD, en particulier parce qu'ils peuvent utiliser de manière exhaustive les informations d'image et de texte pour améliorer les résultats de détection.

Cet article s'articule autour de trois questions :

1. Les informations des balises non-ID sont-elles utiles pour la détection OOD zéro tir ?

2. Comment extraire des informations bénéfiques pour la détection OOD à échantillon nul ?

3. Comment utiliser les informations extraites pour la détection OOD à échantillon nul ?

Dans ce projet, nous proposons une approche innovante appelée NegLabel qui utilise les VLM pour la détection OOD. La méthode NegLabel introduit spécifiquement un mécanisme de « étiquette négative ». Ces étiquettes négatives présentent des différences sémantiques significatives avec les étiquettes de catégorie d'identification connues. En analysant et en comparant l'affinité et la nature des images et des étiquettes d'identification et des étiquettes négatives, NegLabel peut efficacement distinguer les distributions appartenant à. échantillons en dehors du modèle, améliorant ainsi considérablement la capacité du modèle à identifier les échantillons OOD.

NegLabel a atteint des performances supérieures dans plusieurs tests de détection OOD zéro tir. Il peut atteindre 94,21 % AUROC et 25,40 % FPR95 sur des ensembles de données à grande échelle tels que ImageNet-1k. Comparé aux méthodes de détection OOD basées sur les VLM, NegLabel ne nécessite pas seulement de processus de formation supplémentaires, mais affiche également des performances supérieures. De plus, NegLabel fait preuve d’une excellente polyvalence et robustesse sur différentes architectures VLM.