CVPR 2024 | Modèle de diffusion LiDAR pour la génération de scènes photoréalistes-IA-php.cn

Table des matières

Idée de thèse :

Principales contributions :

Conception Web :

Résultats expérimentaux :

Résumé :

Citation :

Maison

Périphériques technologiques

CVPR 2024 | Modèle de diffusion LiDAR pour la génération de scènes photoréalistes

PHPz

Apr 24, 2024 pm 04:28 PM

git 模型雷达机器人技术

Titre original : Vers une génération de scènes réalistes avec des modèles de diffusion LiDAR

Lien papier : https://hancyran.github.io/assets/paper/lidar_diffusion.pdf

Lien code : https://lidar-diffusion.github. io

Affiliation de l'auteur : CMU Toyota Research Institute University of Southern California

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Idée de thèse :

Les modèles de diffusion (DM) excellent dans la synthèse d'images photoréalistes, mais les adaptent à la génération de scènes lidar L'existence est confrontée à des défis majeurs. Cela est principalement dû au fait que les DM opérant dans l'espace de points ont du mal à conserver le style de courbe et les caractéristiques tridimensionnelles des scènes lidar, ce qui consomme la plupart de leurs capacités de représentation. Cet article propose des modèles de diffusion LiDAR (LiDM), qui simulent des scénarios LiDAR réels en incorporant une compression géométrique dans le processus d'apprentissage. Cet article présente la compression de courbe pour simuler des modèles lidar du monde réel et le codage par patch pour obtenir un contexte d'objet 3D complet. Avec ces trois conceptions principales, cet article établit un nouveau SOTA dans des scénarios de génération lidar inconditionnelle tout en maintenant une efficacité élevée (jusqu'à 107 fois plus rapide) par rapport aux DM basés sur des points. De plus, en compressant les scènes lidar dans un espace latent, cet article permet aux DM de contrôler dans diverses conditions, telles que des cartes sémantiques, des vues de caméra et des invites textuelles.

Principales contributions :

Cet article propose un nouveau modèle de diffusion de fléchettes laser (LiDM), un modèle génératif capable de générer des scènes lidar réalistes basées sur des conditions d'entrée arbitraires. À notre connaissance, il s’agit de la première méthode capable de générer des scènes lidar à partir de conditions multimodales.

Cet article présente la compression au niveau de la courbe pour conserver des motifs laser réalistes, la supervision des coordonnées au niveau du point pour standardiser le modèle de géométrie au niveau de la scène et le codage au niveau du bloc pour capturer pleinement le contexte des objets 3D.

Cet article présente trois indicateurs pour évaluer de manière globale et quantitative la qualité de la scène laser générée dans l'espace perceptuel, en comparant diverses représentations, notamment les images de distance, les volumes clairsemés et les nuages de points.

La méthode décrite dans cet article atteint le dernier niveau en matière de synthèse de scènes inconditionnelles en utilisant des scènes lidar à 64 lignes et atteint une augmentation de vitesse jusqu'à 107 fois par rapport au modèle de diffusion basé sur des points.

Conception Web :

Ces dernières années ont vu le développement rapide de modèles génératifs conditionnels capables de générer des images visuellement attrayantes et très réalistes. Parmi ces modèles, les modèles de diffusion (DM) sont devenus l’une des méthodes les plus populaires en raison de leurs performances impeccables. Pour réaliser la génération dans des conditions arbitraires, les modèles de diffusion latente (MLD) [51] combinent des mécanismes d'attention croisée et des auto-encodeurs convolutifs pour générer des images haute résolution. Ses extensions ultérieures (par exemple, Stable Diffusion [2], Midjourney [1], ControlNet [72]) ont encore amélioré son potentiel de synthèse d'images conditionnelles.

Ce succès a déclenché la réflexion de cet article : Pouvons-nous appliquer des modèles de diffusion contrôlables (DM) à la génération de scènes lidar dans la conduite autonome et la robotique ? Par exemple, étant donné un ensemble de cadres englobants, ces modèles peuvent-ils synthétiser les scènes lidar correspondantes, convertissant ainsi ces cadres englobants en données d'annotation coûteuses et de haute qualité ? Alternativement, est-il possible de générer une scène 3D à partir d’un simple ensemble d’images ? De manière encore plus ambitieuse, pourrions-nous concevoir un générateur lidar piloté par le langage pour une simulation contrôlée ? Pour répondre à ces questions étroitement liées, l'objectif de cet article est de concevoir un modèle de diffusion pouvant combiner plusieurs conditions (par exemple, mise en page, vue de la caméra, texte) pour générer des scènes lidar réalistes.

Pour cela, cet article tire quelques enseignements de travaux récents sur les modèles de diffusion (DM) dans le domaine de la conduite autonome. Dans [75], un modèle de diffusion basé sur des points (c'est-à-dire LiDARGen) est introduit pour la génération inconditionnelle de scènes lidar. Cependant, ce modèle produit souvent des arrière-plans bruyants (par exemple des routes, des murs) et des objets flous (par exemple des voitures), ce qui génère des scènes lidar loin de la réalité (voir Figure 1). De plus, l’étalement des points sans aucune compression rend le processus d’inférence plus lent sur le plan informatique. De plus, l’application directe de modèles de diffusion basés sur des patchs (c’est-à-dire la diffusion latente [51]) à la génération de scènes lidar ne permet pas d’obtenir des performances satisfaisantes, tant qualitativement que quantitativement (voir Figure 1).

Pour parvenir à une génération de scènes lidar réalistes et conditionnelles, cet article propose un générateur basé sur des courbes appelé modèles de diffusion lidar (LiDM) pour répondre aux questions ci-dessus et combler les lacunes des travaux récents. Les LiDM sont capables de gérer des conditions arbitraires telles que des cadres de délimitation, des images de caméra et des cartes sémantiques. Les LiDM utilisent des images de distance comme représentations de scène LiDAR, qui sont très courantes dans diverses tâches en aval telles que la détection [34, 43], la segmentation sémantique [44, 66] et la génération [75]. Ce choix est basé sur la conversion réversible et sans perte entre les images de distance et les nuages de points, ainsi que sur les avantages significatifs tirés des opérations de convolution 2D hautement optimisées. Afin de saisir l'essence sémantique et conceptuelle de la scène lidar pendant le processus de diffusion, notre méthode convertit les points d'encodage de la scène lidar en un espace latent perceptuellement équivalent avant le processus de diffusion.

Pour améliorer encore la simulation réaliste des données lidar du monde réel, cet article se concentre sur trois éléments clés : l'authenticité des motifs, l'authenticité géométrique et l'authenticité des objets. Premièrement, cet article utilise la compression de courbe pour maintenir le modèle de courbe des points pendant le codage automatique, qui s'inspire de [59]. Deuxièmement, afin d'atteindre l'authenticité géométrique, cet article introduit la supervision des coordonnées au niveau du point pour apprendre à notre auto-encodeur à comprendre la structure géométrique au niveau de la scène. Enfin, nous élargissons le champ réceptif en ajoutant des stratégies supplémentaires de sous-échantillonnage au niveau des blocs pour capturer le contexte complet d'objets visuellement plus grands. Amélioré par ces modules proposés, l'espace perceptuel résultant permet au modèle de diffusion de synthétiser efficacement des scènes lidar de haute qualité (voir Figure 1), tout en offrant de bonnes performances en termes de vitesse par rapport aux modèles de diffusion basés sur des points (évalués sur NVIDIA). RTX 3090) et prend en charge tout type de conditions basées sur des images et des jetons.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Figure 1. Notre méthode (LiDM) établit un nouveau SOTA dans la génération de scènes réalistes LiDAR inconditionnelles et marque une étape importante dans la direction de la génération de scènes LiDAR conditionnelles à partir de différentes modalités d'entrée.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Figure 2. Aperçu des LiDM sur des données de 64 lignes, comprenant trois parties : compression LiDAR (voir sections 3.3 et 3.5), conditionalisation multimodale (voir section 3.4) et diffusion LiDAR (voir section 3.5).

Résultats expérimentaux :

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Figure 3. Exemples de LiDM de LiDARGen [75], Latent Diffusion [51] et cet article dans le scénario 64 lignes.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Figure 4. Exemple de LiDM de cet article dans le scénario de 32 lignes.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Figure 5. Exemple du LiDM de cet article pour la génération de cartes sémantiques vers lidar sur l'ensemble de données SemanticKITTI [5].

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Figure 6. Exemple de LiDM pour la génération conditionnelle caméra-lidar sur l'ensemble de données KITTI-360 [37]. La case orange indique la zone couverte par l’image d’entrée. Pour chaque scène, KITTI-360 fournit une perspective qui ne couvre qu'une partie de la scène. Par conséquent, LiDM effectue une génération conditionnelle sur les zones couvertes par la caméra et une génération inconditionnelle sur les zones restantes non observées.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Figure 7. Exemple de LiDM pour la génération texte-lidar sans tir dans un scénario de 64 lignes. La zone encadrée par la ligne pointillée orange représente la zone affectée par la condition, et le cadre vert met en évidence les objets pouvant être associés au mot indicateur.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Figure 8. Facteur d'échelle global ( ) par rapport à la qualité d'échantillonnage (FRID et FSVD). Cet article compare le codage au niveau courbe (Curve), le codage au niveau bloc (Patch) et les courbes avec une (C+1P) ou deux (C+2P) étapes de codage au niveau bloc à différentes échelles sur le KITTI-360 [ 37] encodage au niveau de l’ensemble de données.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Figure 9. Exemples de LiDM avec et sans supervision de niveau ponctuel, comme proposé dans la section 3.3.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Résumé :

Cet article propose des modèles de diffusion LiDAR (LiDM), un cadre conditionnel général pour la génération de scènes LiDAR. La conception de cet article se concentre sur le maintien du motif incurvé et de la structure géométrique du niveau scène et du niveau objet, et conçoit un espace latent efficace pour le modèle de diffusion afin d'obtenir une génération lidar réaliste. Cette conception permet aux LiDM présentés dans cet article d'atteindre des performances compétitives en matière de génération inconditionnelle dans un scénario de 64 lignes, et d'atteindre le niveau de pointe en matière de génération conditionnelle. Les LiDM peuvent être contrôlés à l'aide de diverses conditions, y compris des cartes sémantiques. , Vue de la caméra et invites textuelles. À notre connaissance, notre méthode est la première à introduire avec succès des conditions dans la génération lidar.

Citation :

@inproceedings{ran2024towards,
title={Vers une génération de scènes réalistes avec des modèles de diffusion LiDAR},
author={Ran, Haoxi et Guizilini, Vitor et Wang, Yue},
booktitle={Proceedings de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes},
année={2024}
}

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7464

Tutoriel CakePHP

1376

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Quelles bibliothèques sont utilisées pour les opérations du numéro de point flottantes en Go? Apr 02, 2025 pm 02:06 PM

La bibliothèque utilisée pour le fonctionnement du numéro de point flottante dans le langage go présente comment s'assurer que la précision est ...

Gitee Pages STATIQUE Le déploiement du site Web a échoué: comment dépanner et résoudre les erreurs de fichier unique 404? Apr 04, 2025 pm 11:54 PM

GiteEpages STATIQUE Le déploiement du site Web a échoué: 404 Dépannage des erreurs et résolution lors de l'utilisation de Gitee ...

Quelles bibliothèques de GO sont développées par de grandes entreprises ou fournies par des projets open source bien connus? Apr 02, 2025 pm 04:12 PM

Quelles bibliothèques de GO sont développées par de grandes entreprises ou des projets open source bien connus? Lors de la programmation en Go, les développeurs rencontrent souvent des besoins communs, ...

Comment exécuter le projet H5 Apr 06, 2025 pm 12:21 PM

L'exécution du projet H5 nécessite les étapes suivantes: Installation des outils nécessaires tels que le serveur Web, Node.js, les outils de développement, etc. Créez un environnement de développement, créez des dossiers de projet, initialisez les projets et écrivez du code. Démarrez le serveur de développement et exécutez la commande à l'aide de la ligne de commande. Aperçu du projet dans votre navigateur et entrez l'URL du serveur de développement. Publier des projets, optimiser le code, déployer des projets et configurer la configuration du serveur Web.

Comment spécifier la base de données associée au modèle de Beego ORM? Apr 02, 2025 pm 03:54 PM

Dans le cadre du cadre de beegoorm, comment spécifier la base de données associée au modèle? De nombreux projets Beego nécessitent que plusieurs bases de données soient opérées simultanément. Lorsque vous utilisez Beego ...

Comment résoudre le problème de conversion de type user_id lors de l'utilisation du flux redis pour implémenter les files d'attente de messages dans le langage Go? Apr 02, 2025 pm 04:54 PM

Le problème de l'utilisation de Redessstream pour implémenter les files d'attente de messages dans le langage GO consiste à utiliser le langage GO et redis ...

Comment obtenir les données de la région d'expédition de la version à l'étranger? Quelles sont les ressources prêtes à l'emploi disponibles? Apr 01, 2025 am 08:15 AM

Description de la question: Comment obtenir les données de la région d'expédition de la version à l'étranger? Y a-t-il des ressources prêtes à l'emploi disponibles? Soyez précis dans le commerce électronique transfrontalier ou les entreprises mondialisées ...

La production de pages H5 nécessite-t-elle une maintenance continue? Apr 05, 2025 pm 11:27 PM

La page H5 doit être maintenue en continu, en raison de facteurs tels que les vulnérabilités du code, la compatibilité des navigateurs, l'optimisation des performances, les mises à jour de sécurité et les améliorations de l'expérience utilisateur. Des méthodes de maintenance efficaces comprennent l'établissement d'un système de test complet, à l'aide d'outils de contrôle de version, de surveiller régulièrement les performances de la page, de collecter les commentaires des utilisateurs et de formuler des plans de maintenance.

See all articles