Titre original : LidarDM : Generative LiDAR Simulation in a Generated World
Lien papier : https://arxiv.org/pdf/2404.02903.pdf
Lien code : https://github.com/vzyrianov/lidardm
Affiliation de l'auteur : Université de l'Illinois, Massachusetts Institute of Technology
Cet article présente LidarDM, un nouveau modèle de génération lidar capable de produire une vidéo lidar réaliste, sensible à la mise en page, physiquement crédible et temporellement cohérente. LidarDM dispose de deux capacités sans précédent dans la modélisation de la génération lidar : (1) la génération lidar guidée par des scénarios de conduite, offrant des incitations significatives pour les simulations de conduite autonome ; (2) la génération de nuages de points lidar 4D, permettant la création de séquences lidar réalistes et temporellement cohérentes. Le cœur de notre modèle est un nouveau cadre complet de génération mondiale 4D. Plus précisément, cet article utilise des modèles de diffusion latente pour générer des scènes 3D, les combine avec des acteurs dynamiques pour former le monde 4D sous-jacent, puis génère des données de perception laser réalistes dans cet environnement virtuel. Nos expériences montrent que notre méthode surpasse les algorithmes concurrents en termes de fidélité, de cohérence temporelle et de cohérence de mise en page. Cet article démontre également que LidarDM peut être utilisé comme simulateur de monde génératif pour former et tester des modèles de perception.
Les modèles génératifs développés ont attiré de plus en plus d'attention dans le traitement de la distribution de données et la création de contenu, comme la génération d'images et de vidéos [10, 33, 52-55], la génération d'objets 3D [10,19 ,38,52], compression [5,29,68] et édition [37,47] et autres champs. Les modèles génératifs présentent également un excellent potentiel de simulation [6, 11, 18, 34, 46, 60, 64, 66, 76, 82], permettant la création de scénarios réalistes et de leurs données sensorielles associées pour la formation et l'évaluation des capacités de renseignement critiques en matière de sécurité. , comme les robots et les véhicules autonomes, éliminent le besoin d’une modélisation manuelle coûteuse du monde réel. Ces fonctionnalités sont essentielles pour les applications qui reposent sur une formation environnementale approfondie ou des tests de scénarios.
Les progrès dans la génération conditionnelle d'images et de vidéos ont été remarquables, mais la tâche spécifique consistant à générer des séquences réalistes de nuages de points lidar pour des scénarios fonctionnellement spécifiques pour les applications de conduite autonome reste sous-explorée. Les méthodes actuelles de génération lidar se répartissent en deux catégories principales, chacune étant confrontée à des défis spécifiques.
Pour relever ces défis, cet article propose LidarDM (Lidar Diffusion Model), qui peut créer des vidéos lidar réalistes, sensibles à la mise en page, physiquement crédibles et temporellement cohérentes. Cet article explore deux nouvelles capacités qui n'ont pas été abordées auparavant : (i) la synthèse lidar guidée par des scénarios de conduite, qui présente un grand potentiel pour la simulation de conduite autonome, et (ii) visant à produire des nuages de points lidar réalistes et annotés. Nuage de points lidar 4D séquentiel la synthèse. L’idée clé pour atteindre ces objectifs dans cet article réside dans la première génération et la combinaison du monde 4D sous-jacent, puis dans la création d’observations perceptuelles réalistes au sein de cet environnement virtuel. Pour y parvenir, cet article intègre les méthodes existantes de génération d'objets 3D pour créer des acteurs dynamiques et développe une nouvelle méthode de génération de scènes 3D à grande échelle basée sur des modèles de diffusion latente. Cette approche est capable de produire des scènes de conduite 3D réalistes et diversifiées à partir de la disposition sémantique des particules et, à la connaissance de cet article, il s'agit de la première tentative. Cet article applique des trajectoires pour générer un monde 3D et effectue une simulation de raycasting stochastique pour générer la séquence lidar 4D finale. Comme le montre la figure 1, les résultats générés dans cet article sont divers, alignés sur les conditions de mise en page et sont à la fois réalistes et cohérents dans le temps.
Les résultats expérimentaux de cet article montrent que les images à image unique générées par LidarDM présentent un réalisme et une diversité, et que leurs performances sont comparables à la technologie de pointe de génération de nuages de points laser à image unique sans rayures. De plus, cet article démontre que LidarDM est capable de produire des vidéos de nuages de points laser temporellement cohérentes, au-delà de la base de référence robuste de génération de capteurs de diffusion. À notre connaissance, il s’agit de la première méthode de génération de nuages de points laser dotée de cette capacité. Cet article démontre en outre les capacités de génération d'éléments du LidarDM en démontrant un bon accord entre le nuage de points laser généré et le nuage de points laser réel sous les éléments cartographiques correspondants. Enfin, cet article démontre que les données générées à l'aide de LidarDM présentent des écarts de domaine minimes lorsqu'elles sont testées avec des modules de perception formés sur des données réelles, et peuvent également être utilisées pour étendre les données de formation, améliorant ainsi considérablement les performances des détecteurs 3D. Cela constitue une condition préalable à l'utilisation du modèle de nuage de points laser généré pour créer un environnement de simulation réaliste et contrôlable pour la formation et le test des modèles de conduite.
Figure 1 : Cet article présente LidarDM, un nouveau modèle génératif lidar 4D. La vidéo lidar générée dans cet article présente à la fois les avantages du réalisme, de la conditionnalité de la mise en page, de la crédibilité physique, de la diversité et de la cohérence temporelle.
Figure 2 : Application de LidarDM : (a) Générer un lidar étroitement aligné avec la carte sans capture ni modélisation 3D (les cases colorées mettent en évidence la cohérence entre le lidar et la carte b) fournir des données de capteur à un simulateur de trafic existant (); Waymax [20]), lui permettant d'évaluer des scénarios critiques pour la sécurité à partir de données de capteurs pures uniquement ; (c) générer de grandes quantités de données lidar avec des emplacements d'obstacles contrôlables (considérés comme des étiquettes réelles disponibles gratuitement) pour améliorer les modèles de perception grâce à une pré-formation. sans capture et annotation de données coûteuses.
Figure 3 : Présentation de LidarDM : Étant donné l'entrée de disposition du trafic à l'instant t = 0, LidarDM génère d'abord des acteurs de trafic et des scènes statiques. Ensuite, cet article génère les mouvements des participants à la circulation (acteurs) et des véhicules autonomes, et construit le monde 4D sous-jacent. Enfin, utilisez la simulation générative et basée sur la physique pour créer des données de capteurs 4D réalistes.
Figure 4 : Le processus de génération de scène 3D de cet article. Tout d’abord, le nuage de points accumulé est utilisé pour reconstruire chaque échantillon de maillage réel. Ensuite, un auto-encodeur variationnel (VAE) est entraîné pour compresser la grille en un codage implicite. Enfin, un modèle de diffusion conditionné sur la carte est entraîné pour échantillonner dans l'espace latent du VAE afin de générer de nouveaux échantillons.
Figure 5 : Réseau de gouttes de rayons aléatoires pour la simulation du bruit perceptuel, améliorant encore le réalisme. Cet article met en évidence les points rayonnés en rouge sur la carte de distance masquée et l'image lidar masquée ci-dessus.
Figure 6 : De vrais échantillons KITTI-360 comparés à des échantillons non conditionnés provenant de méthodes concurrentes. Les visualisations d'échantillons UltraLiDAR sont tirées directement de leur article. Par rapport aux méthodes précédentes, LidarDM génère des échantillons avec un plus grand nombre d'objets saillants plus détaillés (par exemple des voitures, des piétons), des structures 3D plus claires (par exemple des murs droits) et un tracé routier plus réaliste.
Figure 7 : Résultats qualitatifs de la génération de séquences conditionnées par carte sur 2 séquences cartographiques Waymax [20]. Cet article montre également le nuage de points cumulatif correspondant pour mettre en évidence la cohérence temporelle du LidarDM.
Cet article propose LidarDM, un nouveau modèle de diffusion latente basé sur des conditions de mise en page pour générer des nuages de points lidar réalistes. Notre approche définit le problème comme une tâche conjointe de création de monde 4D et de génération de données de perception, et développe un nouveau modèle de diffusion latente pour créer des scènes 3D. La vidéo de nuage de points qui en résulte est réaliste, cohérente et adaptée à la mise en page.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!