NeRF (Neural Radiance Fields), également connu sous le nom de champs de rayonnement neuronal, est rapidement devenu l'un des domaines de recherche les plus populaires depuis sa proposition, et les résultats sont étonnants. Cependant, le résultat direct de NeRF n'est qu'un champ de densité coloré, qui fournit peu d'informations aux chercheurs. Le manque de contexte est l'un des problèmes auxquels il faut faire face. Il affecte directement la construction d'interfaces interactives avec la 3D. scènes.
Mais le langage naturel est différent. Le langage naturel interagit avec les scènes 3D de manière très intuitive. Nous pouvons utiliser la scène de cuisine de la figure 1 pour expliquer que des objets peuvent être trouvés dans la cuisine en demandant où se trouvent les couverts, ou en demandant où se trouvent les outils utilisés pour remuer. Cependant, l’accomplissement de cette tâche nécessite non seulement les capacités de requête du modèle, mais également la capacité d’incorporer la sémantique à plusieurs échelles.
Dans cet article, des chercheurs de l'UC Berkeley ont proposé une nouvelle méthode et l'ont nommée LERF (Language Embedded Radiance Fields), qui combine les langagesdans des modèles tels que CLIP (Contrastive Language-Image Pre-training) Embedded into NeRF, rendant possibles ces types de requêtes en langage ouvert 3D. LERF utilise CLIP directement, sans avoir besoin d'affiner via des ensembles de données tels que COCO, ou de s'appuyer sur des suggestions de régions masquées. LERF préserve l'intégrité des intégrations CLIP à plusieurs échelles et est également capable de gérer une variété de requêtes linguistiques, y compris les attributs visuels (par exemple, le jaune), les concepts abstraits (par exemple, le courant électrique), le texte, etc., comme le montre la figure 1. .
Adresse de papier: https://arxiv.org/pdf/2303.09553v1.pdf
project Homepage: https://www.lerf.io/
LERF peut extraire de manière interactive des diagrammes de corrélation 3D pour les invites linguistiques en temps réel. Par exemple, sur une table avec un agneau et un gobelet d'eau, saisissez l'invite agneau ou gobelet d'eau, et LERF pourra donner la carte 3D correspondante :
Pour les bouquets complexes, LERF peut également positionner avec précision :
Différents objets dans la cuisine :
Cette étude a construit une nouvelle méthode LERF en optimisant conjointement le champ du langage avec NeRF. LERF prend la position et l'échelle physique en entrée et génère un seul vecteur CLIP. Pendant la formation, les champs sont supervisés à l'aide d'une pyramide de fonctionnalités multi-échelles contenant des intégrations CLIP générées à partir de recadrages d'images des vues de formation. Cela permet à l'encodeur CLIP de capturer le contexte de l'image à différentes échelles, associant ainsi le même emplacement 3D à des intégrations de langage à différentes échelles. LERF peut interroger le champ linguistique à n’importe quelle échelle pendant les tests pour obtenir une carte de corrélation 3D.
Étant donné que les intégrations CLIP sont extraites de plusieurs vues à plusieurs échelles, la carte de pertinence d'une requête textuelle obtenue via l'intégration CLIP 3D de LERF est plus localisée que celle obtenue via l'intégration CLIP 2D, et est cohérente en 3D et peut. être interrogé directement dans le champ 3D sans afficher plusieurs vues.
LERF nécessite l'apprentissage d'un langage d'intégration de champ sur un volume centré sur un point d'échantillonnage. Plus précisément, le résultat de ce champ est l'intégration CLIP moyenne de toutes les vues d'entraînement contenant des recadrages d'images du volume spécifié. En reconstruisant des requêtes de points en volumes, LERF peut superviser efficacement des champs denses à partir de récoltes grossières d'images d'entrée, qui peuvent être restituées de manière alignée en pixels par conditionnement sur une échelle volumétrique donnée.
LERF lui-même produit des résultats cohérents, mais la carte de corrélation résultante peut parfois être incomplète et contenir des valeurs aberrantes, comme le montre la figure 5 ci-dessous.
Pour réguler le champ linguistique optimisé, cette étude introduit DINO auto-supervisé en partageant les goulots d'étranglement.
En termes d'architecture, l'optimisation de l'intégration du langage en 3D ne devrait pas affecter la distribution de densité dans la représentation de la scène sous-jacente, cette étude capture donc le biais inductif dans LERF en entraînant deux réseaux indépendants : un avec pour les vecteurs propres (DINO, CLIP) et un autre pour la sortie NeRF standard (couleur, densité).
Pour démontrer la capacité du LERF à traiter des données du monde réel, l'étude a collecté 13 scènes, notamment des épiceries, des cuisines, des librairies, des figurines, etc. La figure 3 sélectionne 5 scénarios représentatifs pour démontrer la capacité du LERF à traiter le langage naturel.
Figure 3
La figure 7 est une comparaison visuelle 3D du LERF et du LSeg Dans les œufs dans le bol d'étalonnage, le LSeg n'est pas aussi bon que le LERF :
.La figure 8 montre que LSeg formé sur un ensemble de données segmentées limitées n'a pas la capacité de représenter efficacement le langage naturel. Au lieu de cela, il ne fonctionne bien que sur les objets courants au sein de la distribution de l'ensemble d'apprentissage, comme le montre la figure 7.
Cependant, la méthode LERF n'est pas encore parfaite. Voici des cas d'échec. Par exemple, lors du calibrage des légumes courgettes, d'autres légumes apparaîtront :
.Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!