Article arXiv "ST-P3 : End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning", 22 juillet, auteur de l'Université Jiao Tong de Shanghai, du laboratoire d'IA de Shanghai, de l'Université de Californie à San Diego et recherche de Pékin de JD hôpital .com.
Proposer un schéma d'apprentissage de caractéristiques spatio-temporelles pouvant fournir simultanément un ensemble de caractéristiques plus représentatives pour les tâches de perception, de prédiction et de planification, appelé ST-P3. Plus précisément, une technique d'accumulation alignée égocentrique est proposée pour conserver les informations géométriques dans l'espace 3D avant de détecter la conversion BEV ; l'auteur conçoit un modèle à double voie pour que les changements de mouvement passés soient pris en compte pour les prédictions futures ; une unité de raffinement est introduite pour compenser la reconnaissance prévue des éléments visuels. Le code source, le modèle et les détails du protocole sont open source https://github.com/OpenPerceptionX/ST-P3.
Méthode LSS pionnière pour extraire des caractéristiques de perspective de caméras multi-vues via la profondeur. on estime qu'il sera mis à niveau vers la 3D et intégré dans l'espace BEV. Conversion de fonctionnalités entre deux vues, dont la prédiction de la profondeur latente est cruciale.
La mise à niveau des informations planes bidimensionnelles vers trois dimensions nécessite des dimensions supplémentaires, c'est-à-dire une profondeur adaptée aux tâches de conduite autonome géométriques tridimensionnelles. Pour améliorer encore la représentation des fonctionnalités, il est naturel d'incorporer des informations temporelles dans le cadre puisque la plupart des scènes sont chargées de sources vidéo.
Comme décrit dans la figureST-P3Cadre général : plus précisément, étant donné un ensemble de vidéos de caméra environnantes, saisissez-les dans l'épine dorsale pour générer des fonctionnalités de vue de face préliminaires. Effectue une estimation de profondeur auxiliaire pour convertir les entités 2D en espace 3D. Le schéma d'accumulation d'alignement autocentré aligne d'abord les entités passées sur le système de coordonnées de la vue actuelle. Les caractéristiques actuelles et passées sont ensuite agrégées dans un espace tridimensionnel, préservant les informations géométriques avant de les convertir en représentation BEV. En plus du modèle de domaine temporel de prédiction couramment utilisé, les performances sont encore améliorées en construisant un deuxième chemin pour expliquer les changements de mouvement passés. Cette modélisation à double chemin garantit une représentation plus forte des caractéristiques pour déduire de futurs résultats sémantiques. Afin d'atteindre l'objectif ultime de la planification de trajectoire, la connaissance préalable des premières fonctionnalités du réseau est intégrée. Un module de raffinement a été conçu pour générer la trajectoire finale à l'aide de commandes de haut niveau en l'absence de cartes HD.
perception. (a) Utiliser l'estimation de la profondeur pour transformer les caractéristiques de l'horodatage actuel en 3D et les fusionner dans les caractéristiques BEV après l'alignement (b-c) Aligner les caractéristiques 3D de l'image précédente avec la vue de l'image actuelle et fusionner avec tous les états passés et actuels ; amélioration de la représentation des fonctionnalités.
prédiction : (i) le code latent est la distribution de la carte des caractéristiques (ii iii) de manière à combiner la distribution de l'incertitude, indiquant le futur multi ; -modalité, et le chemin b apprend des changements passés, ce qui aide les informations du chemin a à compenser.
planification : le diagramme des coûts globaux comprend deux sous-coûts. Les trajectoires à coût minimum sont redéfinies davantage à l'aide de fonctionnalités prospectives pour regrouper les informations basées sur la vision provenant des entrées de caméra.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!