


Le premier modèle de diffusion de détection de cible, meilleur que Faster R-CNN et DETR, détecte directement à partir d'images aléatoires
Le modèle de diffusion, en tant que nouveau SOTA dans les modèles de génération profonde, a surpassé le SOTA d'origine dans les tâches de génération d'images : telles que GAN, et offre d'excellentes performances dans de nombreux domaines d'application, tels que la vision par ordinateur, la PNL et la modélisation graphique moléculaire, le temps modélisation en série, etc.
Récemment, l'équipe de Luo Ping de l'Université de Hong Kong et des chercheurs du Tencent AI Lab ont proposé conjointement un nouveau framework DiffusionDet, qui applique le modèle de diffusion à la détection de cibles. À notre connaissance, aucune recherche ne permet d'appliquer avec succès le modèle de diffusion à la détection de cibles. On peut dire qu'il s'agit du premier travail utilisant le modèle de diffusion pour la détection de cibles.
Comment sont les performances de DiffusionDet ? Évalué sur l'ensemble de données MS-COCO, en utilisant ResNet-50 comme épine dorsale, en une seule étape d'échantillonnage, DiffusionDet atteint 45,5 AP, nettement meilleur que Faster R-CNN (40,2 AP), DETR (42,0 AP) et comparable à Sparse. R-CNN (45,0 AP) est comparable. En augmentant le nombre d'étapes d'échantillonnage, les performances de DiffusionDet sont encore améliorées à 46,2 AP. De plus, DiffusionDet a également bien fonctionné sur l'ensemble de données LVIS, atteignant 42,1 AP en utilisant la base swing comme épine dorsale.
- Adresse papier : https://arxiv.org/pdf/2211.09788.pdf
- Adresse du projet https://github.com/ShoufaChen/DiffusionDet
L'étude a révélé qu'il existe un défaut dans la détection d'objets traditionnelle, c'est-à-dire qu'elle s'appuie sur un ensemble fixe de requêtes apprenables. Les chercheurs se sont alors demandé : existe-t-il un moyen simple de détecter des objets qui ne nécessite même pas de requêtes apprenables ?
Pour répondre à cette question, cet article propose DiffusionDet, un framework capable de détecter des cibles directement à partir d'un ensemble de boîtes aléatoires. Il formule la détection de cible comme un processus de diffusion débruitant de la boîte de bruit à la boîte cible. Cette approche noise-to-box ne nécessite pas de priorités heuristiques de cible ni de requêtes apprenables, ce qui simplifie encore davantage les cibles candidates et fait progresser les pipelines de détection.
Comme le montre la figure 1 ci-dessous, cette étude estime que le paradigme du bruit en boîte est similaire au processus bruit en image dans le modèle de diffusion de débruitage. Ce dernier est un type de modèle basé sur la vraisemblance qui utilise. l'appris Le modèle de bruit supprime progressivement le bruit dans l'image pour générer l'image.
DiffusionDet résout la tâche de détection de cible via le modèle de diffusion, c'est-à-dire que la détection est considérée comme une tâche de génération dans la position (coordonnées centrales) et la taille (largeur et hauteur) du cadre de délimitation dans l'image . Dans la phase d'entraînement, du bruit gaussien contrôlé par la table de variance (échéancier) est ajouté à la boîte de vérité terrain pour obtenir la boîte à bruit. Ces boîtes bruyantes sont ensuite utilisées pour recadrer les régions d'intérêt (RoI) à partir des cartes de caractéristiques de sortie des encodeurs de base (tels que ResNet, Swin Transformer). Enfin, ces caractéristiques RoI sont envoyées au décodeur de détection, qui est formé pour prédire la boîte de vérité terrain sans bruit. Dans la phase d'inférence, DiffusionDet génère des boîtes englobantes en inversant le processus de diffusion appris, qui ajuste la distribution préalable du bruit à la distribution apprise sur la boîte englobante.
Présentation de la méthode
Étant donné que le modèle de diffusion génère de manière itérative des échantillons de données, le modèle f_θ doit être exécuté plusieurs fois pendant la phase d'inférence. Cependant, appliquer f_θ directement sur l’image originale à chaque étape d’itération est difficile à calculer. Par conséquent, les chercheurs ont proposé de diviser l'ensemble du modèle en deux parties, à savoir l'encodeur d'image et le décodeur de détection. Le premier n'est exécuté qu'une seule fois pour extraire la représentation des caractéristiques de profondeur de l'image d'entrée d'origine et affiner progressivement les prédictions de boîte dans z_t.
L'encodeur d'image prend l'image brute en entrée et extrait ses fonctionnalités de haut niveau pour le décodeur de détection. Les chercheurs utilisent des réseaux neuronaux convolutifs tels que ResNet et des modèles basés sur Transformer tels que Swin pour mettre en œuvre DiffusionDet. Pendant ce temps, les réseaux pyramidaux de fonctionnalités sont utilisés pour générer des cartes de fonctionnalités multi-échelles pour les réseaux fédérateurs ResNet et Swin.
Le décodeur de détection emprunte à Sparse R-CNN, prenant un ensemble de boîtes de proposition en entrée, recadrant les caractéristiques RoI de la carte de caractéristiques générée par l'encodeur d'image et les envoyant à la tête de détection pour obtenir les résultats de régression et de classification des boîtes. De plus, le décodeur de détection est constitué de 6 étages en cascade.
Formation
Au cours du processus de formation, les chercheurs ont d'abord construit le processus de diffusion de la véritable boîte de valeur à la boîte de bruit, puis ont entraîné le modèle pour inverser ce processus. L'algorithme 1 ci-dessous fournit le pseudocode du processus de formation DiffusionDet.
Remplissage de la boîte de vérité. Pour les benchmarks modernes de détection d'objets, le nombre d'instances d'intérêt varie souvent d'une image à l'autre. Par conséquent, nous remplissons d’abord quelques cases supplémentaires par rapport aux cases de vérité terrain d’origine afin que toutes les cases soient résumées en un nombre fixe N_train. Ils ont exploré plusieurs stratégies de remplissage, telles que la répétition de boîtes de vérité terrain existantes, la concaténation de boîtes aléatoires ou de boîtes de la taille d'une image.
Cadre endommagé. Le chercheur ajoute du bruit gaussien à la boîte de vérité terrain remplie. L'échelle de bruit est contrôlée par α_t dans la formule suivante (1), qui adopte une planification en cosinus décroissante de manière monotone à différents pas de temps t.
Perte d'entraînement. Le décodeur de détection prend en entrée les boîtes corrompues N_train et prédit les prédictions N_train de la classification des classes et des coordonnées des boîtes. Appliquez également la perte de prédiction d'ensemble sur l'ensemble de prédictions N_train.
Inférence
Le processus d'inférence de DiffusionDet est un processus d'échantillonnage débruitant du bruit à la trame cible. A partir d'une boîte échantillonnée à partir d'une distribution gaussienne, le modèle affine progressivement ses prédictions comme le montre l'algorithme 2 ci-dessous.
Étapes d'échantillonnage. À chaque étape d'échantillonnage, des boîtes aléatoires ou des boîtes estimées de l'étape d'échantillonnage précédente sont envoyées au décodeur de détection pour prédire la classification de classe et les coordonnées des boîtes. Après avoir obtenu la case de l'étape en cours, DDIM est utilisé pour estimer la case de l'étape suivante.
Mises à jour de la boîte. Pour rendre l'inférence plus cohérente avec l'entraînement, nous proposons une stratégie de mise à jour des boîtes pour récupérer les boîtes inattendues en les remplaçant par des boîtes aléatoires. Plus précisément, ils filtrent d’abord les cases inattendues avec des scores inférieurs à un certain seuil, puis concatènent les cases restantes avec de nouvelles cases aléatoires échantillonnées à partir d’une distribution gaussienne.
Une fois pour toutes. Grâce à la conception des boîtes aléatoires, les chercheurs peuvent évaluer DiffusionDet en utilisant n'importe quel nombre de boîtes aléatoires et d'étapes d'échantillonnage. À titre de comparaison, les méthodes précédentes reposent sur le même nombre de boîtes de traitement pendant la formation et l'évaluation, et le décodeur de détection n'est utilisé qu'une seule fois lors de la passe avant.
Résultats expérimentaux
Dans la partie expérimentale, les chercheurs ont d'abord démontré la propriété une fois pour toutes de DiffusionDet, puis ont comparé DiffusionDet avec des détecteurs matures précédents sur les ensembles de données MS-COCO et LVIS.
La fonctionnalité principale de DiffusionDet est d'entraîner toutes les instances d'inférence une fois. Une fois le modèle entraîné, il peut être utilisé pour modifier le nombre de cases et les exemples d'étapes d'inférence, comme le montre la figure 4 ci-dessous. DiffusionDet peut atteindre une plus grande précision en utilisant plus de cases ou/et plus d’étapes de raffinement, mais au prix d’une latence plus élevée. Par conséquent, nous avons déployé un seul DiffusionDet dans plusieurs scénarios et obtenu le compromis vitesse-précision souhaité sans recycler le réseau.
Les chercheurs ont comparé DiffusionDet aux détecteurs précédents sur les ensembles de données MS-COCO et LVIS, comme le montre le tableau 1 ci-dessous. Ils ont d’abord comparé les performances de détection d’objets de DiffusionDet avec les détecteurs précédents sur MS-COCO. Les résultats montrent que DiffusionDet sans l'étape de raffinement atteint 45,5 AP en utilisant le réseau fédérateur ResNet-50, surpassant de loin les méthodes matures précédentes telles que Faster R-CNN, RetinaNet, DETR et Sparse R-CNN. Et DiffusionDet montre une amélioration stable lorsque la taille du réseau fédérateur est agrandie.
Les résultats sur l'ensemble de données LVIS plus complexe sont présentés dans le tableau 2 ci-dessous, et on peut voir que DiffusionDet peut obtenir des gains significatifs en utilisant davantage d'étapes de raffinement.
Veuillez vous référer à l'article original pour plus de détails expérimentaux.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.
