Photos
Lien papier :https://arxiv.org/pdf/2310.19629
Lien code :https://github.com/vLAR-group/RayDF
Page d'accueil :Obligatoire le contenu réécrit est : https://vlar-group.github.io/RayDF.html
Le contenu réécrit : Méthode de mise en œuvre :
Le processus global et les composants de RayDF sont les suivants (voir Figure 1)
Dans de nombreuses applications de pointe dans le domaine de la vision industrielle et de la robotique, apprenez trois éléments précis et efficaces. Les expressions de forme dimensionnelle sont très importantes. Cependant, les expressions implicites existantes basées sur des coordonnées 3D nécessitent des coûts de calcul élevés lors de la représentation de formes 3D ou du rendu d'images 2D. En revanche, les méthodes basées sur les rayons peuvent déduire efficacement des formes 3D ; Cependant, les méthodes existantes basées sur les rayons ne prennent pas en compte la cohérence géométrique sous des angles de vues multiples, ce qui rend difficile la récupération de formes géométriques précises sous des angles de vue inconnus. Pour résoudre ces problèmes, cet article propose une nouvelle méthode qui maintient les vues multiples. cohérence géométrique. Une méthode d'expression implicite basée sur les rayons appelée RayDF. Cette méthode est basée sur un simple champ de distance rayon-surface, en introduisant un nouveau classificateur de visibilité à double rayon et un module d'optimisation de cohérence multi-vues)
, apprenez à obtenir une distance rayon-surface qui satisfait la cohérence géométrique de plusieurs angles de vision . Les résultats expérimentaux montrent que la méthode modifiée atteint des performances supérieures de reconstruction de surface 3D sur trois ensembles de données et atteint une vitesse de rendu 1 000 fois plus rapide que la méthode basée sur les coordonnées (voir tableau 1).
Voici les principales contributions :
En utilisant le champ de distance rayon-surface pour représenter des formes tridimensionnelles, cette expression est plus efficace que les expressions existantes basées sur les coordonnées.
Figure 2 Paramétrage des rayons et structure du réseau du champ de distance rayon-surface
2.2 Classificateur de visibilité à double rayonLe réseau auxiliaire de cette méthode consiste à prédire si les deux rayons d'entrée peuvent voir une surface en même temps Classificateur binaire pour les points. Comme le montre la figure 3, les caractéristiques obtenues à partir des deux rayons d'entrée sont moyennées pour garantir que les résultats prédits ne sont pas affectés par l'ordre des deux rayons. Dans le même temps, les caractéristiques obtenues en codant séparément les points de surface sont épissées après les caractéristiques des rayons pour améliorer les caractéristiques des rayons et ainsi améliorer la précision du classificateur.La structure du cadre du classificateur de visibilité à double rayon est illustrée dans la figure 3
2.3 Optimisation de la cohérence multi-vues Basé sur le réseau de distance rayon-surface du réseau principal conçu et le classificateur de visibilité à double rayon du réseau auxiliaire, Le module clé d'optimisation de la cohérence multi-vues est introduit pour effectuer une formation en deux étapes sur les deux réseaux.(1) Tout d'abord, construisez les paires de rayons pour la formation pour le classificateur de visibilité à double rayon du réseau auxiliaire. Pour un rayon dans une image (correspondant à un pixel dans l'image), le point de surface de l'espace correspondant peut être connu grâce à sa distance rayon-surface. Projetez-le sur les angles de vision restants dans l'ensemble d'entraînement pour obtenir un autre rayon et ce rayon ; Il existe une distance rayon-surface correspondante. L'article fixe un seuil de 10 mm pour déterminer si deux rayons sont visibles l'un par l'autre.
(2) La deuxième étape consiste à entraîner le réseau principal de distance rayon-surface du réseau afin que son champ de distance prédit réponde à la cohérence multi-vues. Comme le montre la figure 4, pour un rayon principal et ses points de surface, le point de surface est uniformément échantillonné en tant que centre de la sphère et plusieurs rayons à vues multiples sont obtenus. Associez le rayon principal à ces rayons multi-vues un par un, et leur visibilité mutuelle peut être obtenue grâce au classificateur de visibilité à double rayon entraîné. Prédisez ensuite la distance rayon-surface de ces rayons à travers le réseau de distance rayon-surface ; si le rayon principal et un certain rayon d'échantillonnage sont mutuellement visibles, alors les points de surface calculés par les distances rayon-surface des deux rayons doivent être les mêmes. point ; selon La fonction de perte correspondante est conçue et le réseau principal est formé, ce qui permet finalement au champ de distance rayon-surface d'atteindre la cohérence multi-vue.
Étant donné que la valeur de profondeur au bord de la surface de la scène présente souvent des mutations (discontinuité) et que le réseau neuronal est une fonction continue, le champ de distance rayon-surface ci-dessus est sur la surface Il est facile de prédire des valeurs de distance inexactes au bord, ce qui entraîne du bruit sur la surface géométrique au bord. Heureusement, le champ de distance rayon-surface conçu présente de bonnes caractéristiques, comme le montre la figure 5. Le vecteur normal de chaque point de surface tridimensionnel estimé peut être facilement trouvé sous forme fermée grâce à la différenciation automatique du réseau. Par conséquent, la distance euclidienne du vecteur normal du point de surface peut être calculée pendant l'étape d'inférence du réseau. Si la valeur de distance est supérieure au seuil, le point de surface est considéré comme une valeur aberrante et éliminé, obtenant ainsi un résultat tridimensionnel propre. surface reconstruite.
Figure 5 Calcul de la normale de surface
Afin de vérifier l'efficacité de la méthode proposée, nous avons mené des expériences sur trois ensembles de données. Ces trois ensembles de données sont l'ensemble de données synthétiques au niveau objet Blender [1], l'ensemble de données synthétiques au niveau scène DM-SR [2] et l'ensemble de données réelles au niveau scène ScanNet [3]. Nous avons sélectionné sept références pour la comparaison des performances. Parmi eux, OF [4]/DeepSDF [5]/NDF [6]/NeuS [7] sont des méthodes d'ensemble de niveaux basées sur des coordonnées, DS-NeRF [8] est une méthode basée sur NeRF supervisée en profondeur et LFN [ 9] et PRIF [10] sont deux lignes de base basées sur les rayons
En raison de la facilité avec laquelle la méthode RayDF permet d'ajouter directement une branche de radiance pour apprendre les textures, elle peut être comparée aux modèles de base qui prennent en charge la prédiction des champs de radiance. Par conséquent, les expériences comparatives de cet article sont divisées en deux groupes. Le premier groupe (Groupe 1) prédit uniquement la distance (géométrie) et le deuxième groupe (Groupe 2) prédit à la fois la distance et la radiance (géométrie et texture)
Comme le montrent le tableau 2 et la figure 6, dans les groupes 1 et 2, RayDF obtient de meilleurs résultats en matière de reconstruction de surface, en particulier dans l'indicateur ADE le plus important, qui est nettement meilleur que les lignes de base basées sur les coordonnées et les rayons. Dans le même temps, en termes de rendu du champ de rayonnement, RayDF a également atteint des performances comparables à celles du DS-NeRF et supérieures à celles du LFN et du PRIF.
Figure 6 Comparaison visuelle de l'ensemble de données Blender
Comme le montre le tableau 3, dans l'indicateur ADE le plus critique, RayDF dépasse toutes les lignes de base. Dans le même temps, dans l'expérience du groupe 2, RayDF a pu obtenir une nouvelle synthèse de vues de haute qualité tout en garantissant que la forme précise de la surface était restaurée (voir Figure 7).
Figure 7 Comparaison visuelle de l'ensemble de données DM-SR
Le tableau 4 compare les performances de RayDF et les lignes de base dans des scénarios difficiles du monde réel. Dans les premier et deuxième groupes, RayDF surpasse considérablement les lignes de base dans presque toutes les mesures d'évaluation, montrant des avantages évidents dans la récupération de scènes 3D complexes du monde réel. Dans la figure 8, nous montrons les résultats de la comparaison visuelle de l'ensemble de données ScanNet
3.4 Étude d'ablation
Une expérience d'ablation a été réalisée sur l'ensemble de données Blender. Le tableau 5 de l'article montre l'ablation du classificateur clé de visibilité à double rayon. Les résultats expérimentaux. sont présentés dans le tableau 5 (1). Sans l'aide du classificateur de visibilité à double rayon, le champ de distance rayon-surface ne sera pas en mesure de prédire une valeur de distance raisonnable pour les rayons sous le nouvel angle de vue (voir la figure). 9).Le contenu qui doit être réécrit est le suivant : La figure 9 montre la comparaison visuelle entre l'utilisation du classificateur et la non-utilisation du classificateur
IV. Conclusion
En menant des recherches utilisant un cadre de cohérence multi-vues basé sur les rayons, l'article est arrivé à la conclusion que la représentation de formes tridimensionnelles peut être apprise de manière efficace et précise grâce à cette méthode. Dans cet article, un simple champ de distance rayon-surface est utilisé pour représenter la géométrie de formes tridimensionnelles, et un nouveau classificateur de visibilité à double rayon est utilisé pour obtenir une cohérence géométrique multi-vues. Des expériences sur plusieurs ensembles de données ont prouvé que la méthode RayDF présente une efficacité de rendu extrêmement élevée et d'excellentes performances. D'autres extensions du framework RayDF sont les bienvenues. Vous pouvez voir plus de résultats de visualisation sur la page d'accueilLe contenu qui doit être réécrit est : https://vlar-group.github.io/RayDF.html
Le contenu qui doit être réécrit est : Original Lien:https://mp.weixin.qq.com/s/dsrSHKT4NfgdDPYcKOhcOACe qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!