Table des matières
Idée de thèse :
Principales contributions :
Conception du réseau :
Maison Périphériques technologiques IA Sparse4D v3 est là ! Faire progresser la détection et le suivi 3D de bout en bout

Sparse4D v3 est là ! Faire progresser la détection et le suivi 3D de bout en bout

Nov 24, 2023 am 11:21 AM
自动驾驶 训练

Nouveau titre : Sparse4D v3 : Avancement de la technologie de détection et de suivi 3D de bout en bout

Lien papier : https://arxiv.org/pdf/2311.11722.pdf

Le contenu qui doit être réécrit est : Lien de code : https:// github.com/linxuewu/Sparse4D

Contenu réécrit : L'affiliation de l'auteur est Horizon Corporation

Sparse4D v3来了!推进端到端3D检测和跟踪

Idée de thèse :

Dans le système de perception de la conduite autonome, la détection et le suivi 3D sont deux tâches de base. Cet article examine plus en profondeur ce domaine en s'appuyant sur le framework Sparse4D. Cet article présente deux tâches de formation auxiliaires (débruitage d'instance temporelle et estimation de la qualité) et propose une attention découplée pour améliorer la structure, améliorant ainsi considérablement les performances de détection. De plus, cet article étend le détecteur au tracker en utilisant une méthode simple qui attribue des identifiants d'instance lors de l'inférence, soulignant ainsi les avantages des algorithmes basés sur des requêtes. Des expériences approfondies sur le benchmark nuScenes valident l'efficacité des améliorations proposées. En utilisant ResNet50 comme épine dorsale, mAP, NDS et AMOTA ont augmenté respectivement de 3,0 %, 2,2 % et 7,6 %, atteignant respectivement 46,9 %, 56,1 % et 49,0 %. Le meilleur modèle de cet article a obtenu 71,9 % de NDS et 67,7 % d'AMOTA sur l'ensemble de tests nuScenes

Principales contributions :

Sparse4D-v3 est un puissant framework de perception 3D qui propose trois stratégies efficaces : Instances de séries temporelles Débruitage, qualité estimation et découplage de l'attention

Cet article étend Sparse4D dans un modèle de suivi de bout en bout.

Cet article démontre l'efficacité des améliorations de nuScenes, atteignant des performances de pointe dans les tâches de détection et de suivi.

Conception du réseau :

Tout d'abord, on observe que les algorithmes clairsemés sont confrontés à de plus grands défis de convergence par rapport aux algorithmes denses, affectant ainsi les performances finales. Ce problème a été bien étudié dans le domaine de la détection 2D [17, 48, 53], principalement parce que les algorithmes clairsemés utilisent une correspondance d'échantillons positifs un à un. Cette méthode d'appariement est instable dans les premiers stades de la formation, et par rapport à la correspondance un-à-plusieurs, le nombre d'échantillons positifs est limité, réduisant ainsi l'efficacité de la formation du décodeur. De plus, Sparse4D utilise un échantillonnage de caractéristiques clairsemées au lieu d'une attention croisée globale, ce qui entrave encore davantage la convergence de l'encodeur en raison de la rareté des échantillons positifs. Dans Sparse4Dv2, une supervision profonde et dense est introduite pour atténuer partiellement ces problèmes de convergence rencontrés par les encodeurs d’images. L'objectif principal de cet article est d'améliorer les performances du modèle en se concentrant sur la stabilité de la formation du décodeur. Cet article utilise la tâche de débruitage comme supervision auxiliaire et étend la technologie de débruitage de la détection d'image unique 2D à la détection de séries temporelles 3D. Cela garantit non seulement une correspondance stable des échantillons positifs, mais augmente également considérablement le nombre d’échantillons positifs. En outre, cet article introduit également une tâche d'évaluation de la qualité en tant que supervision auxiliaire. Cela rend le score de confiance de sortie plus raisonnable, améliore la précision du classement des résultats de détection et obtient ainsi des indicateurs d'évaluation plus élevés. De plus, cet article améliore la structure des modules d'instance d'auto-attention et d'attention croisée temporelle dans Sparse4D, et introduit un mécanisme d'attention découplé visant à réduire l'interférence des caractéristiques dans le processus de calcul du poids d'attention. En utilisant des intégrations d'ancres et des caractéristiques d'instance comme entrées dans le calcul de l'attention, les instances présentant des valeurs aberrantes dans les pondérations d'attention peuvent être réduites. Cela peut refléter plus précisément la corrélation entre les fonctionnalités cibles, obtenant ainsi une agrégation correcte des fonctionnalités. Cet article utilise des connexions plutôt que des mécanismes d’attention pour réduire considérablement cette erreur. Cette méthode d'augmentation présente des similitudes avec le DETR conditionnel, mais la principale différence est que cet article met l'accent sur l'attention entre les requêtes, tandis que le DETR conditionnel se concentre sur l'attention croisée entre les requêtes et les caractéristiques de l'image. De plus, cet article implique également une méthode d'encodage unique

Afin d'améliorer les capacités de bout en bout du système de perception, cet article étudie la méthode d'intégration de tâches de suivi multi-cibles 3D dans le framework Sparse4D pour sortir directement le trajectoire de mouvement de la cible. Contrairement aux méthodes de suivi basées sur la détection, cet article intègre toutes les fonctions de suivi dans le détecteur en éliminant le besoin d'association et de filtrage des données. De plus, contrairement aux méthodes existantes de détection et de suivi des articulations, notre tracker ne nécessite pas de modification ou d'ajustement de la fonction de perte pendant l'entraînement. Il ne nécessite pas de fournir des identifiants de vérité terrain, mais implémente une régression instance-to-track prédéfinie. L'implémentation du suivi de cet article intègre entièrement le détecteur et le tracker, sans modifier le processus de formation du détecteur, et ne nécessite pas de réglage supplémentaire

Sparse4D v3来了!推进端到端3D检测和跟踪

Il s'agit de la figure 1 sur la vue d'ensemble du framework Sparse4D. est une vidéo multi-vues et la sortie est constituée de tous les résultats perceptuels des images

Sparse4D v3来了!推进端到端3D检测和跟踪

Figure 2 : Efficacité d'inférence (FPS) - performances perceptuelles (mAP) sur l'ensemble de données de validation nuScenes de différents algorithmes.

Sparse4D v3来了!推进端到端3D检测和跟踪

Figure 3 : Visualisation des poids d'attention en cas d'auto-attention : 1) La première ligne montre les poids d'attention en cas d'auto-attention ordinaire, où le piéton dans le cercle rouge montre un accident avec le véhicule cible (case verte) Pertinence. 2) La deuxième ligne montre le poids de l’attention en attention découplée, ce qui résout efficacement ce problème.

Sparse4D v3来了!推进端到端3D检测和跟踪

La quatrième image montre un exemple de débruitage d'instance de série chronologique. Pendant la phase de formation, les instances se composent de deux parties : apprenable et bruyante. Les instances de bruit sont composées d'éléments temporels et non temporels. Cet article adopte une méthode de pré-appariement pour allouer des échantillons positifs et négatifs, c'est-à-dire faire correspondre les ancres avec la vérité terrain, tandis que les instances apprenables sont mises en correspondance avec les prédictions et la vérité terrain. Pendant la phase de test, seuls les blocs verts restent. Pour empêcher les fonctionnalités de se propager entre les groupes, un masque d'attention est utilisé. Le gris signifie qu'il n'y a pas d'attention entre les requêtes et les clés, le vert signifie le contraire. Veuillez consulter la Figure 5 : Architecture de l'encodeur d'ancrage et de l'attention. Cet article code indépendamment les caractéristiques de grande dimension de plusieurs composants d’ancres, puis les concatène. Cette approche réduit la surcharge de calcul et de paramètres par rapport au Sparse4D original. E et F représentent respectivement l'intégration d'ancres et les fonctionnalités d'instance.

Sparse4D v3来了!推进端到端3D检测和跟踪

Résumé :

Sparse4D v3来了!推进端到端3D检测和跟踪

Cet article propose d'abord une méthode pour améliorer la performances de détection de Sparse4D . Cette amélioration comprend principalement trois aspects : le débruitage des instances temporelles, l'estimation de la qualité et l'attention découplée. Par la suite, l'article explique le processus d'extension de Sparse4D en un modèle de suivi de bout en bout. Les expériences de cet article sur nuScenes montrent que ces améliorations améliorent considérablement les performances, plaçant Sparse4Dv3 à l'avant-garde du domaine.

Citation :

Sparse4D v3来了!推进端到端3D检测和跟踪Lin, X., Pei, Z., Lin, T., Huang, L. et Su, Z. (2023 : Faire progresser la détection et le suivi 3D de bout en bout). .Sparse4D v3来了!推进端到端3D检测和跟踪 Sparse4D v3来了!推进端到端3D检测和跟踪ArXiv./abs/2311.11722Sparse4D v3来了!推进端到端3D检测和跟踪

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Open source! Au-delà de ZoeDepth ! DepthFM : estimation rapide et précise de la profondeur monoculaire ! Open source! Au-delà de ZoeDepth ! DepthFM : estimation rapide et précise de la profondeur monoculaire ! Apr 03, 2024 pm 12:04 PM

0. À quoi sert cet article ? Nous proposons DepthFM : un modèle d'estimation de profondeur monoculaire génératif de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur. DepthFM est efficace et peut synthétiser des cartes de profondeur en quelques étapes d'inférence. Lisons ce travail ensemble ~ 1. Titre des informations sur l'article : DepthFM : FastMonocularDepthEstimationwithFlowMatching Auteur : MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Comment résoudre le problème de la longue traîne dans les scénarios de conduite autonome ? Comment résoudre le problème de la longue traîne dans les scénarios de conduite autonome ? Jun 02, 2024 pm 02:44 PM

Hier, lors de l'entretien, on m'a demandé si j'avais posé des questions à longue traîne, j'ai donc pensé faire un bref résumé. Le problème à longue traîne de la conduite autonome fait référence aux cas extrêmes dans les véhicules autonomes, c'est-à-dire à des scénarios possibles avec une faible probabilité d'occurrence. Le problème perçu de la longue traîne est l’une des principales raisons limitant actuellement le domaine de conception opérationnelle des véhicules autonomes intelligents à véhicule unique. L'architecture sous-jacente et la plupart des problèmes techniques de la conduite autonome ont été résolus, et les 5 % restants des problèmes à longue traîne sont progressivement devenus la clé pour restreindre le développement de la conduite autonome. Ces problèmes incluent une variété de scénarios fragmentés, de situations extrêmes et de comportements humains imprévisibles. La « longue traîne » des scénarios limites dans la conduite autonome fait référence aux cas limites dans les véhicules autonomes (VA). Les cas limites sont des scénarios possibles avec une faible probabilité d'occurrence. ces événements rares

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

La vitalité de la super intelligence s'éveille ! Mais avec l'arrivée de l'IA qui se met à jour automatiquement, les mères n'ont plus à se soucier des goulots d'étranglement des données. La vitalité de la super intelligence s'éveille ! Mais avec l'arrivée de l'IA qui se met à jour automatiquement, les mères n'ont plus à se soucier des goulots d'étranglement des données. Apr 29, 2024 pm 06:55 PM

Je pleure à mort. Le monde construit à la folie de grands modèles. Les données sur Internet ne suffisent pas du tout. Le modèle de formation ressemble à « The Hunger Games », et les chercheurs en IA du monde entier se demandent comment nourrir ces personnes avides de données. Ce problème est particulièrement important dans les tâches multimodales. À une époque où rien ne pouvait être fait, une équipe de start-up du département de l'Université Renmin de Chine a utilisé son propre nouveau modèle pour devenir la première en Chine à faire de « l'auto-alimentation des données générées par le modèle » une réalité. De plus, il s’agit d’une approche à deux volets, du côté compréhension et du côté génération, les deux côtés peuvent générer de nouvelles données multimodales de haute qualité et fournir un retour de données au modèle lui-même. Qu'est-ce qu'un modèle ? Awaker 1.0, un grand modèle multimodal qui vient d'apparaître sur le Forum Zhongguancun. Qui est l'équipe ? Moteur Sophon. Fondé par Gao Yizhao, doctorant à la Hillhouse School of Artificial Intelligence de l’Université Renmin.

La version Kuaishou de Sora 'Ke Ling' est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes La version Kuaishou de Sora 'Ke Ling' est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes Jun 11, 2024 am 09:51 AM

Quoi? Zootopie est-elle concrétisée par l’IA domestique ? Avec la vidéo est exposé un nouveau modèle de génération vidéo domestique à grande échelle appelé « Keling ». Sora utilise une voie technique similaire et combine un certain nombre d'innovations technologiques auto-développées pour produire des vidéos qui comportent non seulement des mouvements larges et raisonnables, mais qui simulent également les caractéristiques du monde physique et possèdent de fortes capacités de combinaison conceptuelle et d'imagination. Selon les données, Keling prend en charge la génération de vidéos ultra-longues allant jusqu'à 2 minutes à 30 ips, avec des résolutions allant jusqu'à 1080p, et prend en charge plusieurs formats d'image. Un autre point important est que Keling n'est pas une démo ou une démonstration de résultats vidéo publiée par le laboratoire, mais une application au niveau produit lancée par Kuaishou, un acteur leader dans le domaine de la vidéo courte. De plus, l'objectif principal est d'être pragmatique, de ne pas faire de chèques en blanc et de se mettre en ligne dès sa sortie. Le grand modèle de Ke Ling est déjà sorti à Kuaiying.

L'US Air Force présente son premier avion de combat IA de grande envergure ! Le ministre a personnellement effectué l'essai routier sans intervenir pendant tout le processus, et 100 000 lignes de code ont été testées 21 fois. L'US Air Force présente son premier avion de combat IA de grande envergure ! Le ministre a personnellement effectué l'essai routier sans intervenir pendant tout le processus, et 100 000 lignes de code ont été testées 21 fois. May 07, 2024 pm 05:00 PM

Récemment, le milieu militaire a été submergé par la nouvelle : les avions de combat militaires américains peuvent désormais mener des combats aériens entièrement automatiques grâce à l'IA. Oui, tout récemment, l’avion de combat IA de l’armée américaine a été rendu public pour la première fois, dévoilant ainsi son mystère. Le nom complet de ce chasseur est Variable Stability Simulator Test Aircraft (VISTA). Il a été personnellement piloté par le secrétaire de l'US Air Force pour simuler une bataille aérienne en tête-à-tête. Le 2 mai, le secrétaire de l'US Air Force, Frank Kendall, a décollé à bord d'un X-62AVISTA à la base aérienne d'Edwards. Notez que pendant le vol d'une heure, toutes les actions de vol ont été effectuées de manière autonome par l'IA ! Kendall a déclaré : "Au cours des dernières décennies, nous avons réfléchi au potentiel illimité du combat air-air autonome, mais cela a toujours semblé hors de portée." Mais maintenant,

NuScenes dernier SOTA SparseAD : les requêtes clairsemées contribuent à une conduite autonome efficace de bout en bout ! NuScenes dernier SOTA SparseAD : les requêtes clairsemées contribuent à une conduite autonome efficace de bout en bout ! Apr 17, 2024 pm 06:22 PM

Écrit à l'avant et point de départ Le paradigme de bout en bout utilise un cadre unifié pour réaliser plusieurs tâches dans les systèmes de conduite autonome. Malgré la simplicité et la clarté de ce paradigme, les performances des méthodes de conduite autonome de bout en bout sur les sous-tâches sont encore loin derrière les méthodes à tâche unique. Dans le même temps, les fonctionnalités de vue à vol d'oiseau (BEV) denses, largement utilisées dans les méthodes de bout en bout précédentes, rendent difficile l'adaptation à davantage de modalités ou de tâches. Un paradigme de conduite autonome de bout en bout (SparseAD) centré sur la recherche clairsemée est proposé ici, dans lequel la recherche clairsemée représente entièrement l'ensemble du scénario de conduite, y compris l'espace, le temps et les tâches, sans aucune représentation BEV dense. Plus précisément, une architecture clairsemée unifiée est conçue pour la connaissance des tâches, notamment la détection, le suivi et la cartographie en ligne. De plus, lourd

Parlons des systèmes de conduite autonome de bout en bout et de nouvelle génération, ainsi que de quelques malentendus sur la conduite autonome de bout en bout ? Parlons des systèmes de conduite autonome de bout en bout et de nouvelle génération, ainsi que de quelques malentendus sur la conduite autonome de bout en bout ? Apr 15, 2024 pm 04:13 PM

Au cours du mois dernier, pour des raisons bien connues, j'ai eu des échanges très intensifs avec divers professeurs et camarades de classe du secteur. Un sujet inévitable dans l'échange est naturellement le populaire Tesla FSDV12 de bout en bout. Je voudrais profiter de cette occasion pour trier certaines de mes pensées et opinions en ce moment pour votre référence et votre discussion. Comment définir un système de conduite autonome de bout en bout et quels problèmes devraient être résolus de bout en bout ? Selon la définition la plus traditionnelle, un système de bout en bout fait référence à un système qui saisit les informations brutes des capteurs et génère directement les variables pertinentes pour la tâche. Par exemple, en reconnaissance d'images, CNN peut être appelé de bout en bout par rapport à la méthode traditionnelle d'extraction de caractéristiques + classificateur. Dans les tâches de conduite autonome, saisir les données de divers capteurs (caméra/LiDAR

See all articles