Peking University dan pasukan inovasi EVLO bersama-sama mencadangkan DriveWorld, algoritma pra-latihan ruang masa empat dimensi untuk pemanduan autonomi. Kaedah ini menggunakan model dunia untuk pra-latihan, mereka bentuk model ruang keadaan memori untuk pemodelan spatio-temporal empat dimensi, dan mengurangkan ketidakpastian rawak dan ketidakpastian pengetahuan yang dihadapi oleh pemanduan autonomi dengan meramalkan grid pekerjaan tempat kejadian. Kertas kerja ini telah diterima oleh CVPR 2024. .
1. MotivasiTugas memahami adegan pemanduan autonomi melibatkan pelbagai peringkat seperti persepsi adegan dan ramalan perubahan masa hadapan. Tahap ini termasuk bukan sahaja struktur tiga dimensi dalam ruang, tetapi juga perubahan dinamik dalam dimensi masa. Pemahaman adegan yang kompleks ini memerlukan model untuk dapat menangkap dan memahami korelasi intrinsik ruang dan masa empat dimensi untuk membuat keputusan yang tepat. Mempelajari perwakilan spatiotemporal empat dimensi adalah amat mencabar kerana sifat stokastik pemandangan semula jadi, kebolehmerhatian setempat terhadap alam sekitar dan kepelbagaian pelbagai tugas hiliran. Pra-latihan memainkan peranan penting dalam mendapatkan perwakilan universal daripada sejumlah besar data, membolehkan pembinaan model asas dengan pengetahuan sejagat. Walau bagaimanapun, masih terdapat sedikit kajian pra-latihan mengenai ruang masa empat dimensi dalam pemanduan autonomi. Reka bentuk dan pelaksanaan sistem pemanduan autonomi perlu menghadapi dan menangani pelbagai ketidakpastian, yang kebanyakannya dibahagikan kepada dua kategori: Ketidakpastian Aleatorik dan Ketidakpastian Epistemik. Ketidakpastian aleatorik timbul daripada sifat rawak yang wujud di dunia, seperti pergerakan pejalan kaki secara tiba-tiba atau tingkah laku kenderaan yang tidak dijangka. Ketidakpastian epistemik timbul daripada pengetahuan alam sekitar yang tidak lengkap, seperti kekurangan maklumat akibat oklusi atau pengehadan sensor. Untuk menangani ketidakpastian ini dengan berkesan, sistem pemanduan autonomi mesti boleh menggunakan pengalaman lalu untuk meramalkan kemungkinan keadaan masa depan dan membuat kesimpulan tentang kawasan yang tidak kelihatan. Kerja ini menangani cabaran ini melalui model dunia pra-latihan spatiotemporal empat dimensi, yang bertujuan untuk meningkatkan prestasi sistem pemanduan autonomi dalam tugasan persepsi, ramalan dan perancangan.
Untuk jujukan bingkai video T o1:T yang diperhatikan oleh sistem kamera sekeliling pemanduan autonomi, serta gelagat pakar yang sepadan a1:T dan label grid penghunian tiga dimensi y1:T, di mana label raster Occupancy tiga dimensi boleh diperoleh menggunakan awan titik LiDAR 3D dan data sikap. Kami berhasrat untuk mempelajari perwakilan BEV padat daripada model dunia yang meramalkan grid penghunian 3D semasa dan masa hadapan daripada imej dan tindakan berbilang paparan yang lalu.
2.1 Model kebarangkalian siri masaUntuk memberi model keupayaan untuk memodelkan ruang dan masa empat dimensi, kami mula-mula memperkenalkan dua pembolehubah berpotensi (h1:T, s1:T), di mana ht mewakili pembolehubah maklumat sejarah, termasuk Semua maklumat sejarah pada langkah masa t, st mewakili pembolehubah keadaan rawak, yang merupakan kunci kepada model meramalkan keadaan masa hadapan. ht dikemas kini melalui maklumat sejarah h1:t−1 dan keadaan rawak s1:t−1. Untuk meramalkan keadaan masa hadapan, kami mengikuti Model Ruang Keadaan Berulang (RSSM) dan membina taburan keadaan posterior q(st∣o≤t,a Memandangkan dimensi ciri BEV adalah tinggi, kami menukarnya kepada vektor satu dimensi xt, dan kemudian sampel taburan Gaussian daripada (ht,at−1,xt) untuk menjana taburan keadaan posterior: di mana st diparameterkan sebagai taburan normal dengan kovarians pepenjuru , taburan awal ditetapkan kepada s1∽N(0,I). (μϕ,σϕ) ialah perceptron berbilang lapisan dengan taburan keadaan posterior berparameter. p(st∣ht−1,st−1)∽N(μθ(ht,a^t− 1) ,σθ(ht,a^t−1)I),di mana (μθ,σθ) meparameterkan taburan keadaan sebelumnya. ?? ialah rangkaian dasar yang digunakan untuk meramalkan tindakan a^t−1, berdasarkan maklumat sejarah ht−1 dan keadaan rawak st−1. Dans la compréhension des scènes de la conduite autonome, la prise en compte du mouvement des objets est cruciale pour prédire avec précision les états futurs. Afin de capturer ces informations dynamiques, nous proposons de modéliser le mouvement des objets en introduisant des paramètres de mouvement pour obtenir une perception du mouvement lors de la propagation des informations dynamiques. Nous introduisons la normalisation des couches sensible au mouvement (MLN). Les attributs de mouvement incluent la vitesse v et l'intervalle de temps relatif Δt. (v,Δt) est aplati et transformé en vecteurs affines γ et β à travers deux couches linéaires (ξ1,ξ2) : γ=ξ1(v,Δt),β=ξ2(v,Δt). Une transformation affine est ensuite effectuée pour obtenir l'état stochastique sous-jacent de la perception du mouvement, exprimé par st=γ⋅LN(st)+β. Au fur et à mesure que le véhicule se déplace, l'état historique déterministe ht peut construire une bibliothèque de mémoire dynamique h1:t. En effectuant des calculs de mécanisme d'attention croisée avec la banque de mémoire dynamique, l'état historique déterministe ht peut être obtenu. 2.1.2 Transfert d'informations spatiales Dans la compréhension de la scène de la conduite autonome, en plus des informations sur les changements dynamiques, les informations sur la structure spatiale sont tout aussi importantes. Étant donné que les images de scène continues ne contiennent généralement que des changements mineurs et que le contenu principal de la scène est souvent composé d'objets statiques, tels que des routes, des arbres et des panneaux de signalisation, lors du traitement de ces informations, il est possible de convertir directement l'image d'entrée en image. vecteur unidimensionnel. Cela entraînera la perte d’informations clés sur la structure spatiale. Nous sélectionnons au hasard une image o ′ parmi 1 à T images et utilisons ses caractéristiques BEV b ′ pour construire une représentation statique latente b ^ = zθ (b ′) qui décrit la structure de perception spatiale. Nous combinons la représentation statique spatialement consciente b^ avec la représentation de mouvement à changement dynamique st pour obtenir une représentation complète de la scène environnante. 2.2 Tâches auxiliaires de pré-formation Une compréhension globale de l'environnement environnant est cruciale pour la conduite autonome. Nous proposons de modéliser le monde physique sous la forme d'une structure de grille d'occupation tridimensionnelle pour décrire l'environnement autour du véhicule. Le décodeur de grille d'occupation tridimensionnelle est réglé sur y^t=lθ(mθ(h~t,st),b^), où mθ est un réseau qui étend les caractéristiques unidimensionnelles à la dimension BEV, et lθ est utilisé pour prédire le réseau convolutif 3D de la grille d'occupation. Cette pré-formation sur la grille d'occupation en quatre dimensions peut non seulement capturer la structure statique de la scène, mais également comprendre les changements dynamiques de la scène au fil du temps, offrant ainsi une compréhension environnementale plus riche et plus dynamique pour le système de conduite autonome. 2.3 Mécanisme d'invite de tâche Bien que la représentation spatio-temporelle tridimensionnelle puisse être apprise grâce aux tâches de pré-formation conçues par le modèle mondial, différentes tâches en aval se concentrent sur différentes informations. Pour atténuer ce problème, inspiré des indices sémantiques pour la reconnaissance d'images en quelques prises de vue et des indices visuels guidés par des exemples dans l'apprentissage multitâche, un mécanisme « d'indice de tâche » est introduit pour fournir des indices spécifiques pour différentes tâches afin de les guider pour extraire des informations liées à la tâche. fonctionnalité. Puisqu'il existe des corrélations sémantiques entre différentes tâches, nous utilisons de grands modèles de langage gφ(⋅) (par exemple, BERT, CLIP) pour construire ces astuces de tâches. Par exemple, l'invite de tâche pour la tâche de reconstruction de la grille d'occupation tridimensionnelle se concentre davantage sur la scène actuelle et est définie sur « la tâche consiste à prédire la grille d'occupation tridimensionnelle de la scène actuelle ». Nous saisissons l'invite ptext dans gφ(⋅) pour obtenir l'invite de codage gφ(ptext). Il est ensuite étendu à la dimension de BEV, notée qφ(gφ(ptext)), et intégré aux caractéristiques spatio-temporelles apprises. 2.4 Fonction objectif de pré-entraînement Les objectifs de pré-entraînement de DriveWorld incluent la minimisation de la différence entre la distribution de l'état postérieur et la distribution de l'état antérieur (c'est-à-dire la divergence Kullback-Leibler (KL)) et la minimisation de la différence entre le passé et Perte liée à la future grille d'occupation tridimensionnelle (c'est-à-dire perte d'entropie croisée (CE)) et à l'action (c'est-à-dire perte L1). Nous adoptons le modèle pour observer l'entrée pour T pas de temps, puis prédire la future grille d'occupation tridimensionnelle et L étapes d'actions. 3. Expérimentation 3.1 Paramètres expérimentaux Nous avons pré-entraîné sur nuScenes et OpenScenes sur l'ensemble de données de conduite autonome, et affiné sur nuScenes. Nous utilisons l'agrégation de nuages de points LiDAR multi-trames pour obtenir des étiquettes de grille d'occupation 3D denses. 3.2 Résultats expérimentaux Une partie des résultats est présentée ici Pour plus de résultats, veuillez vous référer à l'article. 4. Résumé DriveWorld améliore les capacités de compréhension et de prédiction de l'environnement du système de conduite autonome grâce à un pré-entraînement spatio-temporel en quatre dimensions basé sur le modèle du monde, et réduit l'incertitude rencontrée par la conduite autonome. DriveWorld a proposé un modèle spatial d'état de mémoire pour la modélisation spatio-temporelle, qui comprend un module de stockage de mémoire dynamique pour l'apprentissage des représentations sensibles au timing et un module de propagation de scène statique pour l'apprentissage des représentations sensibles à l'espace. Afin d'améliorer encore l'adaptabilité et la flexibilité du modèle, DriveWorld introduit également un mécanisme d'invite de tâches, qui permet au modèle d'ajuster sa représentation de manière adaptative en fonction des exigences actuelles de la tâche, obtenant ainsi les meilleures performances dans différentes tâches de conduite autonome. Référence [1]Chen Min, et al. Pré-formation unifiée multi-caméras via la reconstruction de scènes 3D[J]. IEEE Robotics and Automation Letters, 2024. [2]Chen Min, et al. Occupation-mae : nuages de points lidar à grande échelle de pré-formation auto-supervisés avec auto-encodeurs d'occupation masqués [J]. Transactions IEEE sur les véhicules intelligents, 2023. Introduction à l'équipe d'innovation EVOL Zhao Jian, China Telecom Artificial Directeur du renseignement et jeune scientifique du Laboratoire d'apprentissage cognitif multimédia (EVOL Lab) de l'Intelligent Research Institute, chercheur et directeur de doctorat à l'Institut d'optoélectronique et d'intelligence de la Northwestern Polytechnical University. Il est diplômé de l'Université nationale de Singapour avec un doctorat. les intérêts de recherche incluent l’analyse multimédia, la sécurité locale et l’incarnation intelligente. Au total, plus de 60 articles CCF-A ont été publiés, dont un T-PAMI×2 (IF : 24,314) et IJCV×3 (IF : 13,369). Le premier inventeur a autorisé 5 brevets d'invention nationaux. Des avancées technologiques pertinentes ont été appliquées par six entreprises leaders du secteur technologique, dont Baidu, Ant Financial et Qihoo 360, et ont produit des avantages significatifs. Il a été sélectionné dans le « Projet de promotion des jeunes talents » de l'Association chinoise pour la science et la technologie et de l'Association de Pékin pour la science et la technologie, et a accueilli 6 projets, dont le Fonds national pour les sciences naturelles de la jeunesse. A remporté le Wu Wenjun Artificial Intelligence Outstanding Youth Award (2023), le premier prix du Wu Wenjun Artificial Intelligence Natural Science Award (2/5, 2022), le prix Lee Hwee Kuan de la Singapore Pattern Recognition and Machine Intelligence Association (PREMIA) et le seul meilleur étudiant de l'ACM Multimedia Paper Award (premier ouvrage, 1/208, conférence CCF-A, 2018), a remporté le championnat 7 fois lors d'importants événements scientifiques et technologiques internationaux. A été directeur de la Beijing Image and Graphics Society, membre du comité de rédaction des revues de renommée internationale "Artificial Intelligence Advances" et "IET Computer Vision", rédacteur invité des numéros spéciaux de "Pattern Recognition Letters" et "Electronics ", président principal de VALSE et buteur de l'ACM Multimedia 2021. Président du forum, président de la zone CICAI 2022/2023, président du forum CCBR 2024, membre senior de la China Artificial Intelligence Society/China Image and Graphics Society, juge du "Challenge Cup" Concours de travaux scientifiques et technologiques pour étudiants universitaires, membre du comité d'experts du Concours chinois d'intelligence artificielle, etc. Page d'accueil de GitHub : https://zhaoj9014.github.io Page d'accueil du Collège : https://www.php.cn/link/2e36742b377be90ffbf553692153d9a1 Jin Lei , Associé émérite de l'Université des postes et télécommunications de Pékin Chercheur, les principales orientations de recherche comprennent la vision par ordinateur, l'exploration de données et la reconnaissance de formes, avec des recherches approfondies sur l'estimation de la posture humaine, la reconnaissance des actions humaines, l'analyse du corps humain et d'autres subdivisions. Les résultats connexes ont été publiés dans des conférences et des revues de haut niveau telles que. comme CVPR, AAAI, NIPS et ACMMM, et ont été publiés au total. Il existe plus de 40 articles indexés SCI/EI, dont 11 articles de haut niveau, y compris des articles publiés en tant que premier auteur dans la zone 1 du JCR de l'Académie chinoise. of Sciences (IEEE Transactions on MultiMedia), conférence CCF-A CVPR, articles ACMMM, articles JCR Area 2 de l'Académie chinoise des sciences (Capteurs), IEEE Sensor Journal), etc. Nous avons accueilli un fonds pour la jeunesse de la Fondation nationale des sciences naturelles de Chine et participé à deux projets nationaux clés de R&D et à quatre projets de la Fondation nationale des sciences naturelles de Chine. Nous nous sommes appuyés sur des conférences de haut niveau pour organiser à de nombreuses reprises des ateliers ICCV2021/CVPR2023 (Anti-UAV Workshop & Challenge). Guider les étudiants pour qu'ils remportent le premier prix du concours « Trois innovations » de technologie et d'application du bio-Internet du Collège national (concours de catégorie A reconnu par l'Université des postes et télécommunications de Pékin). Min Cheng, Ph.D. de l'École d'informatique de l'Université de Pékin, assistant de recherche spécial à l'Institut de technologie informatique de l'Académie chinoise des sciences. Ses principaux domaines de recherche incluent la conduite autonome, l'intelligence incarnée et trois-. reconstruction dimensionnelle. Des résultats pertinents ont été publiés dans des conférences et des conférences de haut niveau telles que CVPR, ICCV, ICRA et RAL, y compris la conférence CCF-A CVPR en tant que premier auteur, la meilleure conférence de robotique ICRA, la revue de robotique faisant autorité RAL, etc. . Participation à un certain nombre de projets nationaux clés de R&D.
2.1.1 Pemesejan dinamik
L'état historique déterministe est ht+1=fθ(ht,st).
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!