La rubrique AIxiv est une rubrique où des contenus académiques et techniques sont publiés sur ce site. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Le premier auteur de l'article est Chen Jiahao, étudiant en deuxième année de maîtrise à l'École d'informatique, Sun Yat-sen. Université. Son domaine de recherche est le rendu neuronal et la reconstruction tridimensionnelle. Son superviseur est le professeur Li Guanbin. Le journal était son premier ouvrage. L'auteur correspondant de l'article est le professeur Li Guanbin de l'École d'informatique et du Laboratoire d'intégration intelligente homme-machine-objet de l'Université Sun Yat-sen, directeur de thèse et lauréat du Fonds national pour la jeunesse exceptionnelle. Les principaux domaines de recherche de l'équipe sont la perception visuelle, la modélisation, la compréhension et la génération de scènes. À ce jour, il a publié plus de 150 articles CCF de catégorie A/CAS Zone 1, qui ont été cités par Google Scholar plus de 12 000 fois. Il a remporté des distinctions telles que le Wu Wenjun Artificial Intelligence Outstanding Youth Award. Depuis leur proposition, les champs de radiance neuronale (NeRF) ont reçu une grande attention en raison de leurs excellentes performances dans la synthèse de nouvelles perspectives et la reconstruction tridimensionnelle. Bien que de nombreux travaux visent à améliorer la qualité de rendu ou la vitesse d'exécution de NeRF, un problème pratique est rarement évoqué : Si des interférences transitoires inattendues apparaissent dans la scène à modéliser, nous comment éliminer leur impact sur NeRF ? Dans cet article, des chercheurs de l'Université Sun Yat-sen, de l'Université de Cardiff, de l'Université de Pennsylvanie et de Simou Technology ont mené des recherches approfondies à ce sujet et ont proposé un nouveau paradigme pour résoudre ce problème. En résumant les avantages et les inconvénients des méthodes existantes et en élargissant les idées d'application des technologies existantes, cette méthode peut non seulement distinguer avec précision les éléments statiques et transitoires dans diverses scènes et améliorer la qualité du rendu de NeRF, mais a également été présélectionné pour le meilleur candidat au CVPR 2024.
- Lien papier : https://arxiv.org/abs/2403.17537
- Lien du projet : https://www.sysu-hcp.net/projects/cv/132.html
Comprenons ce travail ensemble.
La nouvelle synthèse de perspective est une tâche importante en vision par ordinateur et en graphisme. Le modèle d'algorithme doit utiliser des images multi-vues et des poses de caméra données pour générer des images correspondant à la pose cible. . NeRF a réalisé d'importantes avancées dans ce domaine, mais son efficacité est liée à l'hypothèse de scènes statiques.
Plus précisément, NeRF exige que la scène à modéliser reste stationnaire pendant le processus de prise de vue et que le contenu de l'image multi-vue soit cohérent. En réalité, il nous est difficile de répondre à cette exigence. Par exemple, lors d'une prise de vue en extérieur, des véhicules ou des passants extérieurs à la scène peuvent se déplacer de manière aléatoire dans l'objectif, et lors d'une prise de vue en intérieur, un objet ou une ombre peut bloquer l'objectif par inadvertance. Nous appelons les éléments qui présentent un mouvement ou une incohérence en dehors de ce type de scène des distractions transitoires. Si nous ne pouvons pas les éliminer, ils introduiront des artefacts dans les résultats de rendu de NeRF.
(L'existence d'interférences transitoires (encadré jaune) peut conduire à un grand nombre de pseudohadoscopies. Les méthodes actuelles pour résoudre le problème des interférences transitoires peuvent être grossièrement divisées en deux types.
La première méthode utilise des modèles de segmentation existants tels que la segmentation sémantique pour obtenir explicitement des masques liés aux distractions, puis masque les pixels correspondants lors de l'entraînement NeRF. Bien que ces méthodes permettent d’obtenir des résultats de segmentation précis, elles ne sont pas universelles. En effet, nous devons connaître à l'avance les connaissances préalables liées aux distractions (telles que la catégorie d'objet, le masque initial, etc.), et le modèle peut identifier ces distractions. Différent de la première méthode,
la deuxième méthode utilise un algorithme heuristique pour gérer implicitement les distractions transitoires lors de l'entraînement NeRF et ne nécessite aucune connaissance préalable. Bien que ces méthodes soient plus générales, elles ne peuvent pas séparer avec précision les éléments de distraction transitoires et les éléments statiques de la scène en raison de la complexité de la conception et du degré élevé de mauvaise position. Par exemple, étant donné que la texture de couleur correspondant à un pixel transitoire est incohérente sous différents angles de vision, le résidu de couleur entre la valeur prédite et la valeur réelle de ce pixel est souvent plus grand que le résidu d'un pixel statique lors de l'entraînement NeRF. Cependant, les détails statiques haute fréquence de la scène auront également des résidus excessifs en raison de la difficulté d'ajustement. Par conséquent, certaines méthodes qui suppriment les interférences transitoires en définissant des seuils résiduels peuvent facilement perdre des détails statiques haute fréquence.
Comparaison entre les méthodes existantes et la segmentation heuristique guidée (HuGS) proposée dans cet article. Lorsqu'une scène statique est perturbée par des distractions transitoires, (a) les méthodes basées sur la segmentation reposent sur des connaissances préalables et souffriront d'artefacts associés en raison de l'incapacité à identifier des objets transitoires inattendus (tels que la pizza) ; la méthode est plus générale mais pas assez précise (par exemple, la texture de la nappe statique haute fréquence est perdue) ; (c) HuGS combine leurs avantages et est capable de séparer avec précision les distractions transitoires et les éléments statiques de la scène, améliorant ainsi considérablement les résultats du NeRF.
La méthode basée sur le modèle de segmentation est précise mais pas universelle, et la méthode basée sur l'algorithme heuristique est universelle mais inexacte. Alors, peuvent-elles être combinées pour. compenser les forces de chacun et les compenser ? Est-ce à la fois précis et universel ?
Par conséquent, l'auteur de l'article a proposé
un nouveau paradigme appelé Segmentation guidée par heuristique (HuGS), motivé par des « chevaux pour les cours ». En combinant intelligemment des heuristiques conçues à la main et des modèles de segmentation basés sur des signaux, HuGS peut différencier avec précision les distractions transitoires et les éléments statiques dans une scène sans connaissances préalables supplémentaires.
Plus précisément, HuGS utilise d'abord un algorithme heuristique pour distinguer grossièrement les éléments transitoires statiques dans les images multi-vues et génère des indices approximatifs, puis utilise les indices approximatifs pour guider le modèle de segmentation afin de générer des masques de segmentation plus précis. Lors de l'entraînement du NeRF, ces masques seront utilisés pour protéger les pixels transitoires et éliminer l'impact des distractions transitoires sur le NeRF.
Idées de conception HuGS.
En termes de mise en œuvre spécifique, l'auteur de l'article
a choisi Segment Anything Model (SAM) comme modèle de segmentation de HuGS. SAM est actuellement le modèle de segmentation piloté par invites le plus avancé, qui peut accepter différents types d'entrées d'invite telles que des points, des cases et des masques et générer des masques de segmentation d'instance correspondants.
Quant à l'algorithme heuristique, l'auteur a proposé
une heuristique combinée après une analyse approfondie : l'heuristique basée sur la Structure-from-Motion (SfM) est utilisée pour capturer les détails statiques à haute fréquence de la scène , tandis que l'heuristique basée sur une heuristique de résidu de couleur est utilisée pour capturer les détails statiques basse fréquence. Les masques statiques approximatifs générés par les deux heuristiques sont différents les uns des autres et leur union est utilisée pour guider SAM vers un masque statique plus précis. En combinant de manière transparente ces deux heuristiques, HuGS peut identifier de manière robuste différents types d'éléments statiques lorsqu'ils sont confrontés à différents détails de texture.
Organigramme HuGS. (a) Étant donné une image multi-vues non ordonnée dans une scène statique avec des distractions transitoires, HuGS obtient d'abord deux informations heuristiques. (b) L'algorithme heuristique basé sur SfM utilise SfM pour obtenir la distinction entre points caractéristiques statiques et points caractéristiques transitoires, puis utilise des points caractéristiques statiques clairsemés comme indices pour guide SAM Générer des masques statiques denses. (c) Les heuristiques basées sur les résidus de couleur reposent sur NeRF qui est partiellement entraîné (c'est-à-dire entraîné avec seulement quelques milliers d'itérations). Les résidus de couleur entre ses images prédites et réelles peuvent être utilisés pour générer un autre ensemble de masques statiques. (d) La combinaison de deux masques différents guide finalement SAM pour générer (e) un masque statique précis pour chaque image. Algorithme heuristique basé sur SfMSfM est une technologie qui reconstruit des structures tridimensionnelles à partir d'images bidimensionnelles. Après avoir extrait les caractéristiques 2D de l'image, SfM effectue une correspondance et une vérification géométrique des caractéristiques, et reconstruit un nuage de points 3D clairsemé. SfM est souvent utilisé pour estimer la pose de la caméra dans NeRF, et l'auteur de l'article a découvert que SfM peut également être utilisé pour distinguer les éléments statiques et transitoires de la scène. En supposant que le nombre de correspondances pour un certain point caractéristique bidimensionnel est le nombre d'autres points caractéristiques bidimensionnels correspondant au même point de nuage de points tridimensionnel, alors le nombre de correspondances pour les points caractéristiques bidimensionnels de la zone statique est supérieur au nombre de points de match de la zone transitoire. Sur la base de ce résultat, nous pouvons définir un seuil sur le nombre de correspondances pour filtrer les points caractéristiques statiques, puis utiliser SAM pour convertir les points caractéristiques statiques en masques statiques. Afin de vérifier l'exactitude de ces résultats, les auteurs de l'article ont effectué des statistiques sur l'ensemble de données Kubric. Comme le montre la figure ci-dessous, il existe des différences significatives dans le nombre de correspondances de points caractéristiques dans différentes zones d'image. Une autre visualisation montre que des paramètres de seuil raisonnables peuvent supprimer les points caractéristiques transitoires tout en conservant les points caractéristiques statiques.
L'image de gauche est un histogramme du nombre de nombres correspondants de points caractéristiques de différentes zones d'image. Le nombre correspondant de points caractéristiques de zone statique est uniformément réparti dans l'intervalle [0,200], tandis que la caractéristique de zone transitoire. points Le nombre de correspondances s'approche de 0 et est concentré dans l'intervalle [0,10]. L'image de droite est un graphique courbe de la densité de points caractéristiques résiduels dans différentes zones d'image après filtrage à mesure que le seuil change. La densité de points caractéristiques résiduels de l'image entière et de la zone statique diminue linéairement à mesure que le seuil augmente, tandis que la caractéristique résiduelle. la densité de points de la zone transitoire diminue linéairement de façon exponentielle et devient presque nulle après un seuil supérieur à 0,2. Distribution visualisée des points caractéristiques restants de deux images sous des perspectives différentes à mesure que le seuil augmente. Les points caractéristiques restants situés dans la région transitoire sont progressivement supprimés, tandis que la plupart des points caractéristiques de la région statique sont toujours conservés. Heuristique basée sur les résidus de couleur reconnu par l'algorithme d'extraction de fonctionnalités de SfM.
Afin de pouvoir identifier les textures basse fréquence, l'auteur de l'article a introduit un algorithme heuristique basé sur les résidus de couleur : entraînez d'abord partiellement NeRF sur les images multi-vues originales (c'est-à-dire, itérez uniquement des milliers de fois), obtenez un modèle de sous-ajustement, puis obtenez la couleur résiduelle entre l'image rendue et l'image cible. Comme mentionné dans l'introduction de l'arrière-plan, les résidus de couleur des zones de texture statique basse fréquence sont plus petits que les résidus d'autres types de zones, donc un seuil peut être défini sur les résidus de couleur pour obtenir un masque approximatif lié aux textures statiques basse fréquence. . Le masque obtenu par résidu de couleur peut être complété par le masque obtenu par SfM pour former un résultat complet. Une combinaison de deux algorithmes heuristiques, où (a) est l'image cible d'entrée, (d) est le résultat du rendu NeRF de seulement cinq mille itérations. Le masque statique (b) résultant de l'heuristique basée sur SfM capture les détails statiques à haute fréquence (tels que la texture de la boîte) tout en manquant les parties lisses statiques (telles que le dossier de chaise blanc). Le masque statique (e) dérivé de l'heuristique basée sur les résidus de couleur et son masque de segmentation (f) dérivé du SAM guidé produisent seuls des effets opposés. Leur union (c) distingue les distractions transitoires (c'est-à-dire les ballons roses) tout en couvrant tous les éléments statiques. Les résultats de la visualisation
ont-ils montré le processus de segmentation visuelle des câlins dans deux scènes réelles différentes, et le modèle de base MIP-nerf 360 lors de l'application d'un masque statique Comparaison des résultats de rendu avant et après film. À l'aide d'heuristiques combinées et de SAM, HuGS peut générer des masques statiques précis, tandis que Mip-NeRF 360 élimine un grand nombre d'artefacts après l'application de masques statiques, et la qualité de rendu des cartes RVB et de profondeur est considérablement améliorée.
Comparaison des résultats de rendu qualitatif/quantitatifIci sont présentés les résultats expérimentaux de la méthode papier sur trois ensembles de données et deux modèles de base, ainsi que la comparaison avec les méthodes existantes. Les méthodes existantes soit ne parviennent pas à éliminer les artefacts causés par les distractions transitoires, soit effacent trop de détails de texture statiques. En revanche, notre méthode permet de mieux préserver les détails statiques tout en éliminant efficacement les artefacts.
Comparaison des résultats de segmentation qualitative/quantitativeL'auteur de l'article l'a également comparé aux algorithmes de segmentation existants sur l'ensemble de données Kubric. Les résultats expérimentaux montrent que même si des connaissances préalables sont fournies, les modèles de segmentation existants tels que la segmentation sémantique et la segmentation vidéo fonctionnent toujours mal car aucun des modèles de segmentation existants n'est conçu pour cette tâche. Bien que les méthodes heuristiques existantes puissent localiser approximativement l’emplacement des brouilleurs transitoires, elles ne peuvent pas obtenir des résultats de segmentation plus précis. En revanche, HuGS sépare avec précision les distractions transitoires et les éléments statiques de la scène sans connaissances préalables supplémentaires en combinant des algorithmes heuristiques et des modèles de segmentation.
Résultats de l'expérience d'ablationL'auteur de l'article a également vérifié l'impact de chaque composant sur HuGS en supprimant différents composants. Les résultats montrent que le modèle (b) dépourvu de l'heuristique basée sur le SfM ne reconstruit pas bien la texture statique basse fréquence dans la boîte bleue, tandis que les modèles (c) et (d) dépourvus de l'heuristique basée sur les résidus de couleur perdent le jaune. couleur Détails statiques haute fréquence dans la boîte. En comparaison, la méthode complète (f) donne les meilleurs résultats de métriques numériques et de visualisation.
L'article propose un nouveau paradigme de segmentation guidée heuristique, qui résout efficacement le problème d'interférence transitoire courant dans la formation réelle NeRF. En combinant stratégiquement les atouts complémentaires des heuristiques conçues à la main et des modèles de segmentation de pointe, la méthode permet une segmentation très précise des distractions transitoires dans diverses scènes sans aucune connaissance préalable. Grâce à des heuristiques soigneusement conçues, notre méthode est capable de capturer de manière robuste des éléments de scène statiques haute et basse fréquence. Un grand nombre d’expériences ont prouvé l’avancée de cette méthode. Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!