


Nouveau titre : Le rendu en temps réel a évolué ! Méthode innovante de reconstruction 3D à base de rayons
Photos
Lien papier :https://arxiv.org/pdf/2310.19629
Lien code :https://github.com/vLAR-group/RayDF
Page d'accueil :Obligatoire le contenu réécrit est : https://vlar-group.github.io/RayDF.html
Le contenu réécrit : Méthode de mise en œuvre :
Le processus global et les composants de RayDF sont les suivants (voir Figure 1)
1 Introduction
Dans de nombreuses applications de pointe dans le domaine de la vision industrielle et de la robotique, apprenez trois éléments précis et efficaces. Les expressions de forme dimensionnelle sont très importantes. Cependant, les expressions implicites existantes basées sur des coordonnées 3D nécessitent des coûts de calcul élevés lors de la représentation de formes 3D ou du rendu d'images 2D. En revanche, les méthodes basées sur les rayons peuvent déduire efficacement des formes 3D ; Cependant, les méthodes existantes basées sur les rayons ne prennent pas en compte la cohérence géométrique sous des angles de vues multiples, ce qui rend difficile la récupération de formes géométriques précises sous des angles de vue inconnus. Pour résoudre ces problèmes, cet article propose une nouvelle méthode qui maintient les vues multiples. cohérence géométrique. Une méthode d'expression implicite basée sur les rayons appelée RayDF. Cette méthode est basée sur un simple champ de distance rayon-surface, en introduisant un nouveau classificateur de visibilité à double rayon et un module d'optimisation de cohérence multi-vues)
, apprenez à obtenir une distance rayon-surface qui satisfait la cohérence géométrique de plusieurs angles de vision . Les résultats expérimentaux montrent que la méthode modifiée atteint des performances supérieures de reconstruction de surface 3D sur trois ensembles de données et atteint une vitesse de rendu 1 000 fois plus rapide que la méthode basée sur les coordonnées (voir tableau 1).
Voici les principales contributions :
En utilisant le champ de distance rayon-surface pour représenter des formes tridimensionnelles, cette expression est plus efficace que les expressions existantes basées sur les coordonnées.
- Conception d'un nouveau classificateur de visibilité à double rayon. En apprenant la relation spatiale de n'importe quelle paire de rayons, le champ de distance rayon-surface appris peut maintenir une cohérence géométrique sous plusieurs angles de vision.
- La précision et l'efficacité de cette méthode de reconstruction de formes 3D ont été prouvées sur plusieurs ensembles de données.
-
2. Méthode
Figure 2 Paramétrage des rayons et structure du réseau du champ de distance rayon-surface
La structure du cadre du classificateur de visibilité à double rayon est illustrée dans la figure 3
(1) Tout d'abord, construisez les paires de rayons pour la formation pour le classificateur de visibilité à double rayon du réseau auxiliaire. Pour un rayon dans une image (correspondant à un pixel dans l'image), le point de surface de l'espace correspondant peut être connu grâce à sa distance rayon-surface. Projetez-le sur les angles de vision restants dans l'ensemble d'entraînement pour obtenir un autre rayon et ce rayon ; Il existe une distance rayon-surface correspondante. L'article fixe un seuil de 10 mm pour déterminer si deux rayons sont visibles l'un par l'autre.
(2) La deuxième étape consiste à entraîner le réseau principal de distance rayon-surface du réseau afin que son champ de distance prédit réponde à la cohérence multi-vues. Comme le montre la figure 4, pour un rayon principal et ses points de surface, le point de surface est uniformément échantillonné en tant que centre de la sphère et plusieurs rayons à vues multiples sont obtenus. Associez le rayon principal à ces rayons multi-vues un par un, et leur visibilité mutuelle peut être obtenue grâce au classificateur de visibilité à double rayon entraîné. Prédisez ensuite la distance rayon-surface de ces rayons à travers le réseau de distance rayon-surface ; si le rayon principal et un certain rayon d'échantillonnage sont mutuellement visibles, alors les points de surface calculés par les distances rayon-surface des deux rayons doivent être les mêmes. point ; selon La fonction de perte correspondante est conçue et le réseau principal est formé, ce qui permet finalement au champ de distance rayon-surface d'atteindre la cohérence multi-vue.
2.4 Dérivation normale de surface et suppression des points aberrants
Étant donné que la valeur de profondeur au bord de la surface de la scène présente souvent des mutations (discontinuité) et que le réseau neuronal est une fonction continue, le champ de distance rayon-surface ci-dessus est sur la surface Il est facile de prédire des valeurs de distance inexactes au bord, ce qui entraîne du bruit sur la surface géométrique au bord. Heureusement, le champ de distance rayon-surface conçu présente de bonnes caractéristiques, comme le montre la figure 5. Le vecteur normal de chaque point de surface tridimensionnel estimé peut être facilement trouvé sous forme fermée grâce à la différenciation automatique du réseau. Par conséquent, la distance euclidienne du vecteur normal du point de surface peut être calculée pendant l'étape d'inférence du réseau. Si la valeur de distance est supérieure au seuil, le point de surface est considéré comme une valeur aberrante et éliminé, obtenant ainsi un résultat tridimensionnel propre. surface reconstruite.
Figure 5 Calcul de la normale de surface
III Expériences
Afin de vérifier l'efficacité de la méthode proposée, nous avons mené des expériences sur trois ensembles de données. Ces trois ensembles de données sont l'ensemble de données synthétiques au niveau objet Blender [1], l'ensemble de données synthétiques au niveau scène DM-SR [2] et l'ensemble de données réelles au niveau scène ScanNet [3]. Nous avons sélectionné sept références pour la comparaison des performances. Parmi eux, OF [4]/DeepSDF [5]/NDF [6]/NeuS [7] sont des méthodes d'ensemble de niveaux basées sur des coordonnées, DS-NeRF [8] est une méthode basée sur NeRF supervisée en profondeur et LFN [ 9] et PRIF [10] sont deux lignes de base basées sur les rayons
En raison de la facilité avec laquelle la méthode RayDF permet d'ajouter directement une branche de radiance pour apprendre les textures, elle peut être comparée aux modèles de base qui prennent en charge la prédiction des champs de radiance. Par conséquent, les expériences comparatives de cet article sont divisées en deux groupes. Le premier groupe (Groupe 1) prédit uniquement la distance (géométrie) et le deuxième groupe (Groupe 2) prédit à la fois la distance et la radiance (géométrie et texture)
3.1 Évaluation. sur l'ensemble de données Blender
Comme le montrent le tableau 2 et la figure 6, dans les groupes 1 et 2, RayDF obtient de meilleurs résultats en matière de reconstruction de surface, en particulier dans l'indicateur ADE le plus important, qui est nettement meilleur que les lignes de base basées sur les coordonnées et les rayons. Dans le même temps, en termes de rendu du champ de rayonnement, RayDF a également atteint des performances comparables à celles du DS-NeRF et supérieures à celles du LFN et du PRIF.
Figure 6 Comparaison visuelle de l'ensemble de données Blender
3.2 Évaluation sur l'ensemble de données DM-SR
Comme le montre le tableau 3, dans l'indicateur ADE le plus critique, RayDF dépasse toutes les lignes de base. Dans le même temps, dans l'expérience du groupe 2, RayDF a pu obtenir une nouvelle synthèse de vues de haute qualité tout en garantissant que la forme précise de la surface était restaurée (voir Figure 7).
Figure 7 Comparaison visuelle de l'ensemble de données DM-SR
3.3 Évaluation sur l'ensemble de données ScanNet
Le tableau 4 compare les performances de RayDF et les lignes de base dans des scénarios difficiles du monde réel. Dans les premier et deuxième groupes, RayDF surpasse considérablement les lignes de base dans presque toutes les mesures d'évaluation, montrant des avantages évidents dans la récupération de scènes 3D complexes du monde réel. Dans la figure 8, nous montrons les résultats de la comparaison visuelle de l'ensemble de données ScanNet
3.4 Étude d'ablation
Dans l'entrée du classificateur, les coordonnées du point de surface d'entrée sont sélectionnées comme auxiliaires, comme indiqué dans le tableau 5 (2) et (3). Si la valeur de distance du point de surface est sélectionnée comme auxiliaire ou si aucune information auxiliaire n'est fournie, le classificateur obtiendra une précision inférieure et des scores F1, ce qui entraînera des informations de visibilité insuffisantes fournies pour le réseau de distance rayon-surface, prédisant ainsi des valeurs de distance incorrectes.
Comme le montre le tableau 5 (4), en saisissant une paire de rayons de manière asymétrique, le classificateur entraîné a une précision plus élevée mais un score F1 inférieur. Cela montre que ce classificateur est nettement moins robuste qu'un classificateur entraîné avec des rayons d'entrée symétriques.Le contenu qui doit être réécrit est le suivant : La figure 9 montre la comparaison visuelle entre l'utilisation du classificateur et la non-utilisation du classificateur
IV. Conclusion
Le contenu qui doit être réécrit est : https://vlar-group.github.io/RayDF.html
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

L'article de StableDiffusion3 est enfin là ! Ce modèle est sorti il y a deux semaines et utilise la même architecture DiT (DiffusionTransformer) que Sora. Il a fait beaucoup de bruit dès sa sortie. Par rapport à la version précédente, la qualité des images générées par StableDiffusion3 a été considérablement améliorée. Il prend désormais en charge les invites multithèmes, et l'effet d'écriture de texte a également été amélioré et les caractères tronqués n'apparaissent plus. StabilityAI a souligné que StableDiffusion3 est une série de modèles avec des tailles de paramètres allant de 800M à 8B. Cette plage de paramètres signifie que le modèle peut être exécuté directement sur de nombreux appareils portables, réduisant ainsi considérablement l'utilisation de l'IA.

Le premier article pilote et clé présente principalement plusieurs systèmes de coordonnées couramment utilisés dans la technologie de conduite autonome, et comment compléter la corrélation et la conversion entre eux, et enfin construire un modèle d'environnement unifié. L'objectif ici est de comprendre la conversion du véhicule en corps rigide de caméra (paramètres externes), la conversion de caméra en image (paramètres internes) et la conversion d'image en unité de pixel. La conversion de 3D en 2D aura une distorsion, une traduction, etc. Points clés : Le système de coordonnées du véhicule et le système de coordonnées du corps de la caméra doivent être réécrits : le système de coordonnées planes et le système de coordonnées des pixels Difficulté : la distorsion de l'image doit être prise en compte. La dé-distorsion et l'ajout de distorsion sont compensés sur le plan de l'image. 2. Introduction Il existe quatre systèmes de vision au total : système de coordonnées du plan de pixels (u, v), système de coordonnées d'image (x, y), système de coordonnées de caméra () et système de coordonnées mondiales (). Il existe une relation entre chaque système de coordonnées,

La prédiction de trajectoire joue un rôle important dans la conduite autonome. La prédiction de trajectoire de conduite autonome fait référence à la prédiction de la trajectoire de conduite future du véhicule en analysant diverses données pendant le processus de conduite du véhicule. En tant que module central de la conduite autonome, la qualité de la prédiction de trajectoire est cruciale pour le contrôle de la planification en aval. La tâche de prédiction de trajectoire dispose d'une riche pile technologique et nécessite une connaissance de la perception dynamique/statique de la conduite autonome, des cartes de haute précision, des lignes de voie, des compétences en architecture de réseau neuronal (CNN&GNN&Transformer), etc. Il est très difficile de démarrer ! De nombreux fans espèrent se lancer dans la prédiction de trajectoire le plus tôt possible et éviter les pièges. Aujourd'hui, je vais faire le point sur quelques problèmes courants et des méthodes d'apprentissage introductives pour la prédiction de trajectoire ! Connaissances introductives 1. Existe-t-il un ordre d'entrée pour les épreuves de prévisualisation ? R : Regardez d’abord l’enquête, p

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.

Quelques réflexions personnelles de l'auteur Dans le domaine de la conduite autonome, avec le développement de sous-tâches/solutions de bout en bout basées sur BEV, les données d'entraînement multi-vues de haute qualité et la construction de scènes de simulation correspondantes sont devenues de plus en plus importantes. En réponse aux problèmes des tâches actuelles, la « haute qualité » peut être divisée en trois aspects : des scénarios à longue traîne dans différentes dimensions : comme les véhicules à courte portée dans les données sur les obstacles et les angles de cap précis lors du découpage des voitures, et les données sur les lignes de voie. . Scènes telles que des courbes avec des courbures différentes ou des rampes/fusions/fusions difficiles à capturer. Celles-ci reposent souvent sur de grandes quantités de données collectées et sur des stratégies complexes d’exploration de données, qui sont coûteuses. Valeur réelle 3D - image hautement cohérente : l'acquisition actuelle des données BEV est souvent affectée par des erreurs d'installation/calibrage du capteur, des cartes de haute précision et l'algorithme de reconstruction lui-même. cela m'a amené à

J'ai soudainement découvert un article vieux de 19 ans GSLAM : A General SLAM Framework and Benchmark open source code : https://github.com/zdzhaoyong/GSLAM Accédez directement au texte intégral et ressentez la qualité de ce travail ~ 1 Technologie SLAM abstraite a remporté de nombreux succès récemment et a attiré de nombreuses entreprises de haute technologie. Cependant, la question de savoir comment s'interfacer avec les algorithmes existants ou émergents pour effectuer efficacement des analyses comparatives en termes de vitesse, de robustesse et de portabilité reste une question. Dans cet article, une nouvelle plateforme SLAM appelée GSLAM est proposée, qui fournit non seulement des capacités d'évaluation, mais fournit également aux chercheurs un moyen utile de développer rapidement leurs propres systèmes SLAM.

Veuillez noter que cet homme carré fronça les sourcils, pensant à l'identité des « invités non invités » devant lui. Il s’est avéré qu’elle se trouvait dans une situation dangereuse, et une fois qu’elle s’en est rendu compte, elle a rapidement commencé une recherche mentale pour trouver une stratégie pour résoudre le problème. Finalement, elle a décidé de fuir les lieux, de demander de l'aide le plus rapidement possible et d'agir immédiatement. En même temps, la personne de l'autre côté pensait la même chose qu'elle... Il y avait une telle scène dans "Minecraft" où tous les personnages étaient contrôlés par l'intelligence artificielle. Chacun d’eux a un cadre identitaire unique. Par exemple, la jeune fille mentionnée précédemment est une coursière de 17 ans mais intelligente et courageuse. Ils ont la capacité de se souvenir, de penser et de vivre comme des humains dans cette petite ville de Minecraft. Ce qui les anime est une toute nouvelle,

Écrit ci-dessus & La compréhension personnelle de l'auteur est que la reconstruction 3D basée sur l'image est une tâche difficile qui implique de déduire la forme 3D d'un objet ou d'une scène à partir d'un ensemble d'images d'entrée. Les méthodes basées sur l’apprentissage ont attiré l’attention pour leur capacité à estimer directement des formes 3D. Cet article de synthèse se concentre sur les techniques de reconstruction 3D de pointe, notamment la génération de nouvelles vues inédites. Un aperçu des développements récents dans les méthodes d'éclaboussure gaussienne est fourni, y compris les types d'entrée, les structures de modèle, les représentations de sortie et les stratégies de formation. Les défis non résolus et les orientations futures sont également discutés. Compte tenu des progrès rapides dans ce domaine et des nombreuses opportunités d’améliorer les méthodes de reconstruction 3D, un examen approfondi de l’algorithme semble crucial. Par conséquent, cette étude fournit un aperçu complet des progrès récents en matière de diffusion gaussienne. (Faites glisser votre pouce vers le haut
