


Un article sur l'application de la technologie SLAM à la conduite autonome
Le positionnement occupe une place irremplaçable dans la conduite autonome et les développements sont prometteurs pour l'avenir. Actuellement, le positionnement en conduite autonome repose sur RTK et des cartes de haute précision, ce qui ajoute beaucoup de coûts et de difficultés à la mise en œuvre de la conduite autonome. Imaginez simplement que lorsque les humains conduisent, ils n'ont pas besoin de connaître leur propre positionnement global de haute précision et l'environnement détaillé. Il suffit d'avoir un chemin de navigation global et de faire correspondre la position du véhicule sur le chemin. Domaine SLAM.
Qu'est-ce que le SLAM
SLAM (Simultaneous Localization and Mapping), également connu sous le nom de CML (Concurrent Mapping and Localization), positionnement et construction de cartes en temps réel, ou cartographie et positionnement simultanés. Le problème peut être décrit comme suit : placer un robot dans un emplacement inconnu dans un environnement inconnu. Existe-t-il un moyen pour le robot de dessiner progressivement une carte complète de l'environnement tout en décidant dans quelle direction il doit se déplacer ? Par exemple, un robot de balayage est un problème SLAM très typique. La carte dite complète (une carte cohérente) signifie qu'il peut se déplacer sans obstacles dans tous les coins accessibles de la pièce.
SLAM a été proposé pour la première fois par Smith, Self et Cheeseman en 1988. En raison de son importante valeur théorique et applicative, de nombreux chercheurs le considèrent comme la clé de la réalisation d’un robot mobile véritablement entièrement autonome.
Simule que lorsque les humains arrivent dans un environnement inconnu, afin de se familiariser rapidement avec l'environnement et d'accomplir leurs tâches (comme trouver un restaurant, trouver un hôtel), ils doivent procéder dans l'ordre suivant :
a. Observez les environs avec vos yeux, les monuments tels que les bâtiments, les grands arbres, les parterres de fleurs, etc., et mémorisez leurs caractéristiques (extraction de caractéristiques)
b. , reconstruisez les repères caractéristiques dans la carte tridimensionnelle (reconstruction tridimensionnelle)
c Lorsque vous marchez, acquérez constamment de nouveaux repères caractéristiques et corrigez le modèle de carte dans votre esprit (ajustement du faisceau ou EKF)
.d. Sur la base des caractéristiques que vous avez obtenues en marchant il y a quelque temps Landmark, déterminez votre position (trajectoire)
e Lorsque vous marchez un long chemin involontairement, faites-la correspondre aux points de repère précédents dans votre esprit pour voir si vous marchez longtemps. sont revenus au chemin d'origine (détection de fermeture de boucle). En réalité, cette étape est facultative. Les cinq étapes ci-dessus sont effectuées simultanément, il s'agit donc de localisation et de cartographie simultanées.
SLAM laser et SLAM visuel
Les capteurs actuellement utilisés en SLAM sont principalement divisés en deux catégories, le lidar et les caméras. Le LiDAR peut être divisé en types monolignes et multilignes, avec différentes résolutions angulaires et précisions.
VSLAM est principalement mis en œuvre avec des caméras. Il existe de nombreux types de caméras, qui sont principalement divisées en monoculaires, binoculaires, à lumière structurée monoculaire, à lumière structurée binoculaire et ToF. Leur cœur est d’obtenir RVB et une carte de profondeur (informations sur la profondeur). En raison de l'impact des coûts de fabrication, le SLAM visuel est devenu de plus en plus populaire ces dernières années. La cartographie et le positionnement en temps réel via des caméras à faible coût sont également très difficiles sur le plan technique. Prenons comme exemple ToF (Time of Flight), une méthode d’acquisition de profondeur prometteuse.
Le capteur émet une lumière proche infrarouge modulée, qui se reflète lorsqu'il rencontre un objet. Le capteur calcule la différence de temps ou la différence de phase entre l'émission de lumière et la réflexion pour convertir la distance de la scène photographiée afin de générer des informations de profondeur. Semblable au radar, ou imaginez une chauve-souris, le DS325 de softkinetic utilise une solution ToF (conçue par TI). Cependant, la microstructure de son récepteur est relativement spéciale, avec deux obturateurs ou plus, et peut mesurer les différences de temps au niveau p. Cependant, sa taille de pixel unitaire est généralement de 100 um, la résolution actuelle n'est donc pas élevée.
Une fois la carte de profondeur obtenue, l'algorithme SLAM commence à fonctionner. En raison des différents capteurs et exigences, la forme de présentation du SLAM est légèrement différente. Il peut être grossièrement divisé en SLAM laser (également divisé en 2D et 3D) et SLAM visuel (également divisé en Sparse, semiDense, Dense), mais les idées principales sont similaires.
Éléments de mise en œuvre de l'algorithme SLAM
La technologie SLAM est très pratique, mais elle est également assez difficile dans le domaine de la conduite autonome qui nécessite un positionnement précis à tout moment, il est également difficile de mettre en œuvre le SLAM. De manière générale, l'algorithme SLAM prend principalement en compte les quatre aspects suivants lors de sa mise en œuvre :
1. Les problèmes de représentation de la carte, tels que dense et clairsemé, en sont des expressions différentes.
2. Problème de perception des informations, vous devez réfléchir à la façon de percevoir l'environnement de manière globale. Le champ de vision de la caméra RGBD est généralement plus petit, mais le lidar est plus grand
3. les systèmes ont des expressions différentes et doivent être traités uniformément ;
4. Les problèmes de positionnement et de composition font référence à la manière de réaliser l'estimation et la modélisation de la pose, ce qui implique de nombreux problèmes mathématiques, l'établissement de modèles physiques, l'estimation et l'optimisation de l'état ; d'autres incluent la détection de boucles. problèmes, problèmes d'exploration (exploration) et problèmes d'enlèvement (kidnapping).
Le framework SLAM visuel actuellement populaire comprend principalement le front-end et le back-end :
front-end
Le front-end est équivalent à VO (odométrie visuelle), qui étudie la relation de transformation entre les trames.
Extrayez d'abord les points caractéristiques de chaque image, utilisez les images des images adjacentes pour faire correspondre les points caractéristiques, puis utilisez RANSAC pour supprimer le bruit important, puis effectuez une correspondance pour obtenir des informations de pose (position et attitude). en même temps, vous pouvez utiliser IMU (Inertial). Le filtrage back-end et la fusion des informations d'attitude fournies par l'unité de mesure (unité de mesure inertielle) optimisent principalement les résultats front-end, en utilisant la théorie du filtrage (EKF, UKF, PF) ou la théorie de l'optimisation. TORO et G2O pour optimiser des arbres ou des graphiques. Enfin, l'estimation de la pose optimale est obtenue.
Backend
Le backend a plus de difficultés et implique plus de connaissances mathématiques De manière générale, tout le monde a lentement abandonné la théorie du filtrage traditionnel et s'est orienté vers l'optimisation des graphes.
Parce que d'après la théorie du filtrage, la stabilité du filtre augmente trop rapidement, ce qui exerce beaucoup de pression sur le PF pour l'EKF (Extended Kalman Filter) qui nécessite une inversion fréquente.
Le SLAM basé sur des graphiques est généralement basé sur des images clés pour établir plusieurs nœuds et des relations de transformation relatives entre les nœuds, telles que des matrices de transformation affine, et maintenir en permanence les nœuds clés pour garantir que le graphique La capacité réduit la quantité de calcul tout en garantissant la précision .
La future application du SLAM dans le domaine de la conduite autonome
La technologie Slam a obtenu de bons résultats dans de nombreux domaines, notamment les robots mobiles d'intérieur, les scènes AR, les drones, etc. Dans le domaine de la conduite autonome, la technologie SLAM n'a pas reçu beaucoup d'attention, d'une part, elle est principalement résolue par RTK dans l'industrie actuelle de la conduite autonome, et d'autre part, trop de ressources ne seront pas investies dans des recherches approfondies. D'une part, la technologie SLAM n'a pas reçu beaucoup d'attention. D'une part, c'est aussi parce que la technologie actuelle n'est pas encore mature. Dans un domaine lié à la vie comme la conduite autonome, toute nouvelle technologie doit passer l'épreuve du temps avant de pouvoir le faire. être accepté.
À l'avenir, avec l'amélioration progressive de la précision des capteurs, SLAM montrera également ses talents dans le domaine de la conduite autonome. Son faible coût et ses performances robustes apporteront des avantages révolutionnaires au changement de conduite autonome. À mesure que la technologie SLAM devient de plus en plus populaire, de plus en plus de talents en positionnement afflueront dans le domaine de la conduite autonome, injectant du sang frais dans la conduite autonome et ouvrant de nouvelles orientations techniques et domaines de recherche.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Écrit ci-dessus et compréhension personnelle de l'auteur Le Gaussiansplatting tridimensionnel (3DGS) est une technologie transformatrice qui a émergé dans les domaines des champs de rayonnement explicites et de l'infographie ces dernières années. Cette méthode innovante se caractérise par l’utilisation de millions de gaussiennes 3D, ce qui est très différent de la méthode du champ de rayonnement neuronal (NeRF), qui utilise principalement un modèle implicite basé sur les coordonnées pour mapper les coordonnées spatiales aux valeurs des pixels. Avec sa représentation explicite de scènes et ses algorithmes de rendu différenciables, 3DGS garantit non seulement des capacités de rendu en temps réel, mais introduit également un niveau de contrôle et d'édition de scène sans précédent. Cela positionne 3DGS comme un révolutionnaire potentiel pour la reconstruction et la représentation 3D de nouvelle génération. À cette fin, nous fournissons pour la première fois un aperçu systématique des derniers développements et préoccupations dans le domaine du 3DGS.

Hier, lors de l'entretien, on m'a demandé si j'avais posé des questions à longue traîne, j'ai donc pensé faire un bref résumé. Le problème à longue traîne de la conduite autonome fait référence aux cas extrêmes dans les véhicules autonomes, c'est-à-dire à des scénarios possibles avec une faible probabilité d'occurrence. Le problème perçu de la longue traîne est l’une des principales raisons limitant actuellement le domaine de conception opérationnelle des véhicules autonomes intelligents à véhicule unique. L'architecture sous-jacente et la plupart des problèmes techniques de la conduite autonome ont été résolus, et les 5 % restants des problèmes à longue traîne sont progressivement devenus la clé pour restreindre le développement de la conduite autonome. Ces problèmes incluent une variété de scénarios fragmentés, de situations extrêmes et de comportements humains imprévisibles. La « longue traîne » des scénarios limites dans la conduite autonome fait référence aux cas limites dans les véhicules autonomes (VA). Les cas limites sont des scénarios possibles avec une faible probabilité d'occurrence. ces événements rares

0. Écrit à l'avant&& Compréhension personnelle que les systèmes de conduite autonome s'appuient sur des technologies avancées de perception, de prise de décision et de contrôle, en utilisant divers capteurs (tels que caméras, lidar, radar, etc.) pour percevoir l'environnement et en utilisant des algorithmes et des modèles pour une analyse et une prise de décision en temps réel. Cela permet aux véhicules de reconnaître les panneaux de signalisation, de détecter et de suivre d'autres véhicules, de prédire le comportement des piétons, etc., permettant ainsi de fonctionner en toute sécurité et de s'adapter à des environnements de circulation complexes. Cette technologie attire actuellement une grande attention et est considérée comme un domaine de développement important pour l'avenir des transports. . un. Mais ce qui rend la conduite autonome difficile, c'est de trouver comment faire comprendre à la voiture ce qui se passe autour d'elle. Cela nécessite que l'algorithme de détection d'objets tridimensionnels du système de conduite autonome puisse percevoir et décrire avec précision les objets dans l'environnement, y compris leur emplacement,

Avec une capacité d'imitation de l'IA aussi puissante, il est vraiment impossible de l'empêcher. Le développement de l’IA a-t-il atteint ce niveau aujourd’hui ? Votre pied avant fait voler les traits de votre visage, et sur votre pied arrière, la même expression est reproduite. Regarder fixement, lever les sourcils, faire la moue, aussi exagérée que soit l'expression, tout est parfaitement imité. Augmentez la difficulté, haussez les sourcils, ouvrez plus grand les yeux, et même la forme de la bouche est tordue, et l'avatar du personnage virtuel peut parfaitement reproduire l'expression. Lorsque vous ajustez les paramètres à gauche, l'avatar virtuel à droite modifiera également ses mouvements en conséquence pour donner un gros plan de la bouche et des yeux. On ne peut pas dire que l'imitation soit exactement la même, seule l'expression est exactement la même. idem (extrême droite). La recherche provient d'institutions telles que l'Université technique de Munich, qui propose GaussianAvatars, qui

La prédiction de trajectoire joue un rôle important dans la conduite autonome. La prédiction de trajectoire de conduite autonome fait référence à la prédiction de la trajectoire de conduite future du véhicule en analysant diverses données pendant le processus de conduite du véhicule. En tant que module central de la conduite autonome, la qualité de la prédiction de trajectoire est cruciale pour le contrôle de la planification en aval. La tâche de prédiction de trajectoire dispose d'une riche pile technologique et nécessite une connaissance de la perception dynamique/statique de la conduite autonome, des cartes de haute précision, des lignes de voie, des compétences en architecture de réseau neuronal (CNN&GNN&Transformer), etc. Il est très difficile de démarrer ! De nombreux fans espèrent se lancer dans la prédiction de trajectoire le plus tôt possible et éviter les pièges. Aujourd'hui, je vais faire le point sur quelques problèmes courants et des méthodes d'apprentissage introductives pour la prédiction de trajectoire ! Connaissances introductives 1. Existe-t-il un ordre d'entrée pour les épreuves de prévisualisation ? R : Regardez d’abord l’enquête, p

Titre original : SIMPL : ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Lien article : https://arxiv.org/pdf/2402.02519.pdf Lien code : https://github.com/HKUST-Aerial-Robotics/SIMPL Affiliation de l'auteur : Université des sciences de Hong Kong et technologie Idée DJI Paper : cet article propose une base de référence de prédiction de mouvement (SIMPL) simple et efficace pour les véhicules autonomes. Par rapport au cent agent traditionnel

Écrit à l'avant et point de départ Le paradigme de bout en bout utilise un cadre unifié pour réaliser plusieurs tâches dans les systèmes de conduite autonome. Malgré la simplicité et la clarté de ce paradigme, les performances des méthodes de conduite autonome de bout en bout sur les sous-tâches sont encore loin derrière les méthodes à tâche unique. Dans le même temps, les fonctionnalités de vue à vol d'oiseau (BEV) denses, largement utilisées dans les méthodes de bout en bout précédentes, rendent difficile l'adaptation à davantage de modalités ou de tâches. Un paradigme de conduite autonome de bout en bout (SparseAD) centré sur la recherche clairsemée est proposé ici, dans lequel la recherche clairsemée représente entièrement l'ensemble du scénario de conduite, y compris l'espace, le temps et les tâches, sans aucune représentation BEV dense. Plus précisément, une architecture clairsemée unifiée est conçue pour la connaissance des tâches, notamment la détection, le suivi et la cartographie en ligne. De plus, lourd

Au cours du mois dernier, pour des raisons bien connues, j'ai eu des échanges très intensifs avec divers professeurs et camarades de classe du secteur. Un sujet inévitable dans l'échange est naturellement le populaire Tesla FSDV12 de bout en bout. Je voudrais profiter de cette occasion pour trier certaines de mes pensées et opinions en ce moment pour votre référence et votre discussion. Comment définir un système de conduite autonome de bout en bout et quels problèmes devraient être résolus de bout en bout ? Selon la définition la plus traditionnelle, un système de bout en bout fait référence à un système qui saisit les informations brutes des capteurs et génère directement les variables pertinentes pour la tâche. Par exemple, en reconnaissance d'images, CNN peut être appelé de bout en bout par rapport à la méthode traditionnelle d'extraction de caractéristiques + classificateur. Dans les tâches de conduite autonome, saisir les données de divers capteurs (caméra/LiDAR
