Veuillez contacter la source pour obtenir l'autorisation de réimprimer cet article. Cet article a été publié par le compte public Autonomous Driving Heart
La fusion de capteurs multimodaux signifie complément d'information, stabilité et sécurité, ce qui existe depuis longtemps. été la clé de l'automatique Une partie importante de la perception de conduite. Cependant, une utilisation insuffisante des informations, le bruit dans les données d'origine et le désalignement entre les différents capteurs (tels qu'une désynchronisation des horodatages) ont tous entraîné des performances de fusion limitées. Cet article examine de manière exhaustive les algorithmes de perception de conduite autonome multimodaux existants. Les capteurs incluent le LiDAR et les caméras, en se concentrant sur la détection de cibles et la segmentation sémantique, et analyse plus de 50 documents. Différent de la méthode de classification traditionnelle des algorithmes de fusion, cet article classe ce domaine en deux grandes catégories et quatre sous-catégories en fonction des différentes étapes de fusion. De plus, cet article analyse les problèmes existants dans le domaine actuel et fournit une référence pour les orientations de recherche futures.
C'est parce que l'algorithme de perception monomodale présente des défauts inhérents. Par exemple, le lidar est généralement installé plus haut que la caméra. Dans des scénarios de conduite complexes et réels, des objets peuvent être bloqués dans la caméra frontale. Dans ce cas, il est possible d'utiliser le lidar pour capturer la cible manquante. Cependant, en raison des limites de la structure mécanique, le LiDAR a des résolutions différentes à différentes distances et est facilement affecté par des conditions météorologiques extrêmement extrêmes, telles que de fortes pluies. Bien que les deux capteurs puissent très bien fonctionner lorsqu'ils sont utilisés seuls, dans une perspective future, les informations complémentaires du LiDAR et des caméras rendront la conduite autonome plus sûre au niveau de la perception.
Récemment, les algorithmes de perception multimodale de conduite autonome ont fait de grands progrès. Ces avancées incluent une représentation intermodale des caractéristiques, des capteurs modaux plus fiables et des algorithmes et techniques de fusion multimodaux plus complexes et plus stables. Cependant, seules quelques revues [15, 81] se concentrent sur la méthodologie elle-même de la fusion multimodale, et la plupart de la littérature est classée selon les règles de classification traditionnelles, à savoir la pré-fusion, la fusion profonde (caractéristique) et la post-fusion, et principalement se concentre sur L'étape de fusion des fonctionnalités dans l'algorithme, qu'il s'agisse du niveau des données, du niveau des fonctionnalités ou du niveau de la proposition. Cette règle de classification pose deux problèmes : premièrement, la représentation des caractéristiques de chaque niveau n'est pas clairement définie ; deuxièmement, elle traite les deux branches du lidar et de la caméra dans une perspective symétrique, brouillant ainsi la relation entre la fusion de caractéristiques et la fusion de caractéristiques dans le Branche LiDAR. Le cas de la fusion de fonctionnalités au niveau des données dans la branche caméra. En résumé, bien que la méthode de classification traditionnelle soit intuitive, elle n'est plus adaptée au développement des algorithmes de fusion multimodaux actuels, ce qui empêche dans une certaine mesure les chercheurs de mener des recherches et des analyses dans une perspective système
Les tâches de perception courantes incluent la détection de cibles, la segmentation sémantique, l'achèvement et la prédiction en profondeur, etc. Cet article se concentre sur la détection et la segmentation, telles que la détection d'obstacles, de feux de circulation, de panneaux de signalisation et la segmentation des lignes de voie et des espaces libres. La tâche de perception de la conduite autonome est illustrée dans la figure suivante :
Les ensembles de données publiques courants incluent principalement KITTI, Waymo et nuScenes. La figure suivante résume les ensembles de données liés à la perception de la conduite autonome et leurs caractéristiques
La fusion multimodale est indissociable de la forme d'expression des données. La représentation des données de la branche image est relativement simple, faisant généralement référence au format RVB ou à l'image en niveaux de gris. Cependant, la branche lidar dépend fortement des formats de données, et. différents formats de données sont dérivés. Une conception de modèle en aval complètement différente est proposée, qui comprend en résumé trois directions générales : représentation de nuages de points basée sur des points, cartographie basée sur des voxels et bidimensionnelle.
Les méthodes de classification traditionnelles divisent la fusion multimodale en trois types suivants :
L'article utilise la méthode de classification de la figure ci-dessous, qui est généralement divisée en fusion forte et fusion faible. La fusion forte peut être subdivisée en fusion frontale, fusion profonde, fusion asymétrique et post-fusion
Cet article. utilise la détection 3D de KITTI Les performances de chaque algorithme de fusion multimodale sont comparées horizontalement avec la tâche de détection BEV. L'image suivante est le résultat de l'ensemble de tests de détection BEV :
Ce qui suit est un exemple du résultat de la. Coffret de test de détection 3D :
Selon les différentes étapes de combinaison représentées par les données lidar et caméra, cet article subdivise la fusion forte en : fusion frontale, fusion profonde, fusion asymétrique et post-fusion. Comme le montre la figure ci-dessus, on peut voir que chaque sous-module de fusion forte dépend fortement du nuage de points lidar plutôt que des données de la caméra.
Différente de la définition traditionnelle de fusion au niveau des données, qui est une méthode permettant de fusionner directement les données de chaque modalité via l'alignement spatial et la projection au niveau des données brutes, la fusion précoce fusionne les données LiDAR et les données LiDAR au niveau des données brutes. niveau de données Niveau de données données de la caméra ou niveau de fonctionnalité. Un exemple de fusion précoce pourrait être le modèle de la figure 4. Contenu réécrit : Différent de la définition traditionnelle de fusion au niveau des données, qui est une méthode permettant de fusionner directement les données de chaque modalité via l'alignement spatial et la projection au niveau des données d'origine. La fusion précoce fait référence à la fusion des données LiDAR et des données de caméra ou des données au niveau des fonctionnalités au niveau des données. Le modèle de la figure 4 est un exemple de fusion précoce
Différent de la pré-fusion définie par les méthodes de classification traditionnelles, la pré-fusion définie dans cet article fait référence à la méthode de fusion directe de chaque donnée modale par alignement spatial et projection au niveau du Niveau des données d'origine. Au niveau des données, il s'agit de la fusion des données lidar, et au niveau des données ou des fonctionnalités, les données d'image sont fusionnées :
Dans le LiDAR. branche, les nuages de points ont de nombreuses méthodes d'expression, telles que les cartes de réflexion et les images voxélisées, la vue de face/vue de distance/vue BEV et le pseudo nuage de points, etc. Bien que ces données aient des caractéristiques intrinsèques différentes selon les différents réseaux fédérateurs, à l’exception des pseudo-nuages de points [79], la plupart des données sont générées via certains traitements de règles. De plus, par rapport à l'intégration de l'espace de fonctionnalités, ces données LiDAR sont hautement interprétables et peuvent être directement visualisées dans la branche image, la définition au niveau des données au sens strict fait référence aux images RVB ou en niveaux de gris, mais cette définition manque d'universalité et de rationalité. Par conséquent, cet article étend la définition des données d’image au niveau des données dans l’étape de pré-fusion pour inclure les données au niveau des données et des fonctionnalités. Il convient de mentionner que cet article considère également les résultats de prédiction de la segmentation sémantique comme un type de pré-fusion (au niveau des caractéristiques de l'image), d'une part, ils sont utiles pour la détection de cibles 3D, et d'autre part, ils le sont parce que. du « niveau cible » de la segmentation sémantique. Les fonctionnalités sont différentes de la proposition finale au niveau cible de l'ensemble de la tâche
Fusion profondeet la fusion forte est que la méthode de fusion faible ne fusionne pas directement les données, les caractéristiques ou les cibles des branches multimodales, mais traite les données sous d'autres formes. La figure ci-dessous montre le cadre de base de l'algorithme de fusion faible. Les méthodes basées sur une fusion faible utilisent généralement certaines méthodes basées sur des règles pour utiliser les données d'une modalité comme signal de supervision pour guider l'interaction d'une autre modalité. Par exemple, la proposition 2D de CNN dans la branche image peut provoquer une troncature dans le nuage de points LiDAR d'origine, et une fusion faible entre directement le nuage de points LiDAR d'origine dans le squelette LiDAR pour produire la proposition finale.
Il existe également certains travaux qui n'appartiennent à aucun des paradigmes ci-dessus car ils utilisent plusieurs méthodes de fusion dans le cadre de la conception de modèles, comme [39] qui combine des méthodes profondes fusion et post-traitement Fusion,[77] combine la pré-fusion. Ces méthodes ne sont pas les méthodes traditionnelles de conception d’algorithmes de fusion et sont classées dans d’autres méthodes de fusion dans cet article.
Ces dernières années, les méthodes de fusion multimodale pour les tâches de perception de la conduite autonome ont fait des progrès rapides, depuis des représentations de fonctionnalités plus avancées jusqu'à des modèles d'apprentissage en profondeur plus complexes. Cependant, il reste encore quelques problèmes en suspens qui doivent être résolus. Cet article résume plusieurs pistes d'amélioration futures possibles comme suit.
Les modèles de fusion actuels souffrent de problèmes de désalignement et de perte d'informations [13, 67, 98]. De plus, les opérations de fusion à plat entravent également l’amélioration des performances des tâches de perception. Le résumé est le suivant :
L'image prospective à image unique est un scénario typique pour les tâches de perception de la conduite autonome. Cependant, la plupart des cadres ne peuvent utiliser que des informations limitées et ne conçoivent pas de tâches auxiliaires en détail pour faciliter la compréhension des scénarios de conduite. Le résumé est le suivant :
Les scènes du monde réel et la hauteur du capteur peuvent affecter le biais et la résolution du domaine. Ces lacunes entraveront la formation à grande échelle et le fonctionnement en temps réel des modèles d'apprentissage profond de conduite autonome
[1] https://zhuanlan.zhihu.com/p/470588787
[2] Fusion de capteurs multimodaux pour la perception de la conduite automobile : une enquête
Lien original : https https://mp.weixin.qq.com/s/usAQRL18vww9YwMXRvEwLw
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!