Avec le développement des grands modèles de langage (LLM), des progrès rapides ont été réalisés dans l'intégration entre eux et les données spatiales 3D (3D LLM), fournissant une base pour la compréhension physique l’espace et la physique. L’interaction spatiale offre des capacités sans précédent. Cet article fournit un aperçu complet de l'approche de LLM en matière de traitement, de compréhension et de génération de données 3D. Nous soulignons les avantages uniques des LLM, tels que l'apprentissage contextuel, le raisonnement par étapes, les capacités de vocabulaire ouvert et la vaste connaissance du monde, et soulignons leur potentiel pour faire progresser la compréhension spatiale et l'interaction avec les systèmes d'intelligence artificielle (IA) intégrés. Nos recherches couvrent diverses représentations de données 3D, des nuages de points aux champs de rendu neuronal (NeRF). Nous analysons leur intégration avec LLM pour des tâches telles que la compréhension de scènes 3D, les sous-titres, la réponse aux questions et le dialogue, ainsi que les agents basés sur LLM pour le raisonnement spatial, la planification et la navigation. L'article passe également brièvement en revue d'autres approches combinées 3D et langage pertinentes, révélant davantage les progrès significatifs mais soulignant la nécessité d'exploiter tout le potentiel des LLM 3D. Par conséquent, à travers ce document de discussion, nous visons à tracer la voie à suivre pour les recherches futures visant à explorer et à étendre les capacités du 3D LLM à comprendre et à interagir avec des mondes 3D complexes.
Lien open source : https://github.com/ActiveVisionLab/Awesome-LLM-3D
Cette section fournit des informations sur la représentation tridimensionnelle, le grand modèle de langage (LLM) et modèle de langage visuel bidimensionnel (VLM) et Vision Foundation Model (VFM).
La sélection de représentations 3D pour décrire, modéliser et comprendre notre monde est un sujet crucial qui permet de comprendre les progrès actuels du LLM 3D. C'est aussi un domaine de recherche fondamental en vision par ordinateur. Ce domaine a connu récemment une croissance considérable en raison des progrès de l'apprentissage profond, des ressources informatiques et de la disponibilité des données 3D. Nous présentons brièvement les représentations tridimensionnelles les plus courantes actuellement utilisées.
Nuage de points : représente une forme tridimensionnelle comme un ensemble de points de données dans l'espace, stockant la position de chaque point dans un système de coordonnées cartésiennes tridimensionnelles. En plus de stocker l'emplacement, d'autres informations sur chaque point peuvent être stockées (par exemple couleur, normale). Les méthodes basées sur les nuages de points sont connues pour leur faible empreinte de stockage, mais manquent d'informations sur la topologie de surface. Les sources typiques pour obtenir des nuages de points comprennent les capteurs lidar, les scanners à lumière structurée, les caméras à temps de vol, les vues stéréo, la photogrammétrie, etc.
Grille Voxel : Elle se compose de cubes unitaires dans un espace tridimensionnel, similaires à la représentation en pixels dans un espace bidimensionnel. Chaque voxel code de manière minimale les informations d'occupation (binaire ou probabiliste), mais peut en outre coder la distance à la surface, comme dans une fonction de distance signée (SDF) ou une fonction de distance signée tronquée (TSDF). Cependant, lorsque des détails haute résolution sont requis, l’empreinte mémoire peut devenir excessive.
Polygon Mesh : Représentation composée de sommets et de surfaces qui peuvent décrire de manière compacte des formes tridimensionnelles complexes. Cependant, leur nature non structurée et non différenciable pose des défis lors de leur intégration aux réseaux de neurones pour réaliser des pipelines différenciables de bout en bout. Certaines solutions à ce problème, telles que les méthodes basées sur l’approximation du gradient, ne peuvent utiliser que des calculs de gradient artisanaux. D'autres solutions, telles que les rastériseurs différenciables, peuvent conduire à des résultats de rendu inexacts, tels qu'un contenu flou.
Ces dernières années, la communauté de recherche sur la scène neuronale 3D suscite un intérêt croissant, contrairement aux représentations traditionnelles qui reposent sur des éléments géométriques. Les scènes neuronales sont des mappages de coordonnées spatiales aux propriétés de la scène (telles que l'occupation, la couleur, l'intensité, etc.), mais contrairement aux grilles matérielles, dans les scènes neuronales, le mappage est une fonction apprise, généralement un perceptron multicouche. De cette manière, Neural Scenes apprend implicitement des représentations de formes et de scènes 3D géométriques, continues et différenciables.
Un ensemble de réseaux de neurones se concentre sur la représentation implicite des surfaces. Les réseaux d'occupation codent la forme dans une fonction d'occupation 3D continue représentée par un réseau neuronal, en utilisant des emplacements de points 3D et des caractéristiques provenant de nuages de points, de voxels basse résolution ou d'images pour estimer les probabilités d'occupation. Pendant ce temps, le réseau SDF profond utilise un réseau neuronal pour estimer le SDF à partir de coordonnées et de gradients 3D. Il a été démontré que des méthodes récentes, telles que NeuS et NeuS2, améliorent la fidélité et l'efficacité de la reconstruction de surface pour les cibles statiques et dynamiques.
Un autre groupe de méthodes appelées Neural Radiation Fields (NeRF) a montré de puissantes capacités de rendu photoréaliste pour les mondes 3D. Ces méthodes utilisent des techniques de codage de position pour coder les détails de la scène et exploiter le MLP pour prédire les valeurs de radiance (couleur et opacité) des rayons de la caméra. Cependant, la nécessité du MLP de déduire les détails de couleur et d'occupation de chaque point d'échantillonnage dans l'espace (y compris les points d'échantillonnage dans un espace vide) nécessite des ressources informatiques importantes. Par conséquent, il existe une forte incitation à réduire la charge de calcul de NeRF pour les applications en temps réel.
La représentation hybride tente de combiner la technologie NeRF avec des méthodes traditionnelles basées sur le volume pour faciliter un rendu en temps réel de haute qualité. Par exemple, la combinaison de grilles de voxels ou de grilles de hachage multi-résolution avec des réseaux de neurones réduit considérablement les temps de formation et d'inférence NeRF.
La diffusion gaussienne 3D est une variante de nuages de points où chaque point contient des informations supplémentaires représentant le rayonnement émis dans la région de l'espace entourant ce point sous forme de "blobs" gaussiens 3D anisotropes. Ces gaussiennes 3D sont généralement initialisées à partir de nuages de points SfM et optimisées à l'aide d'un rendu différenciable. La diffusion gaussienne 3D permet une nouvelle synthèse de vues de pointe à une fraction du calcul NeRF en tirant parti d'une rastérisation efficace au lieu du traçage de rayons.
Le traitement traditionnel du langage naturel (NLP) englobe un large éventail de tâches conçues pour permettre aux systèmes de comprendre, générer et manipuler du texte. Les premières approches de la PNL reposaient sur des techniques telles que les systèmes basés sur des règles, les modèles statistiques et les premières architectures neuronales telles que les réseaux neuronaux récurrents. Le grand modèle de langage (LLM) récemment introduit adopte une architecture de transformateur et est formé sur un grand corpus de texte, atteignant des performances sans précédent et déclenchant un nouvel engouement dans le domaine. Étant donné que cet article se concentre sur le LLM tridimensionnel, nous fournissons ici des connaissances de base pertinentes sur le LLM. Pour explorer LLM en profondeur, nous nous référons aux enquêtes récentes menées dans la région.
Dans le contexte du LLM, les architectures « encodeur-décodeur » et « décodeur uniquement » sont principalement utilisées pour les tâches NLP.
Une différence majeure entre les méthodes LLM et non-LLM traditionnelles réside dans les capacités émergentes qui sont disponibles dans les grands modèles mais non présentes dans les petits modèles. Le terme « capacités d’urgence » fait référence à de nouvelles capacités complexes qui apparaissent à mesure que les LLM augmentent en taille et en complexité. Ces capacités permettent aux utilisateurs de comprendre et de générer en profondeur un langage naturel, de résoudre des problèmes dans divers domaines sans formation spécifique et de s'adapter à de nouvelles tâches grâce à l'apprentissage contextuel. Dans ce qui suit, nous présenterons plusieurs capacités émergentes communes dans le cadre du LLM.
Apprentissage contextuel fait référence à la capacité du LLM à comprendre et à répondre à de nouvelles tâches ou requêtes en fonction du contexte fourni dans les invites, sans avoir besoin d'un recyclage ou d'un réglage explicite. Les articles phares (GPT-2/GPT-3) démontrent l'apprentissage contextuel dans une approche multi-shot, où le modèle reçoit plusieurs exemples de tâches dans une invite, puis est invité à traiter différents exemples sans formation explicite préalable. Les LLM de pointe, tels que GPT-4, présentent des capacités d'apprentissage contextuel extraordinaires, comprenant des instructions complexes et effectuant un large éventail de tâches allant de la simple traduction à la génération de code et à l'écriture créative, le tout basé sur le contexte fourni dans les invites. .
Le raisonnement en LLM, souvent appelé « chaîne de réflexion », implique des modèles qui génèrent des étapes intermédiaires ou des chemins de raisonnement lorsqu'il s'agit de problèmes ou de problèmes complexes. Cette approche permet à LLM de diviser les tâches en parties plus petites et gérables, favorisant ainsi un processus de solution plus structuré et plus compréhensible. Pour y parvenir, la formation implique des ensembles de données comprenant diverses tâches de résolution de problèmes, des énigmes logiques et des ensembles de données conçus pour simuler un raisonnement dans des conditions d'incertitude. Les LLM de pointe actuels présentent généralement des capacités d'inférence avancées lorsque la taille des modèles est supérieure à 60 B à 100 B de paramètres.
Conformité des instructions fait référence à la capacité du modèle à comprendre et à exécuter des commandes, ou à la capacité d'exécuter les instructions spécifiées par l'utilisateur. Cela inclut l’analyse de l’instruction, la compréhension de son intention et la génération d’une réponse ou d’une action appropriée. Les méthodes utilisées pour adapter cette capacité à de nouvelles tâches peuvent nécessiter une adaptation des instructions à partir d'un ensemble de données contenant une variété d'instructions associées à la réponse ou à l'action correcte. Des techniques telles que l’apprentissage supervisé, l’apprentissage par renforcement à partir de commentaires humains et l’apprentissage interactif peuvent encore améliorer les performances.
Dans le contexte du LLM 3D, le LLM est soit utilisé directement dans son état pré-entraîné, soit affiné pour s'adapter à de nouvelles tâches multimodales. Cependant, le réglage fin de l’ensemble des paramètres de LLM pose d’importants défis de calcul et de mémoire en raison du grand nombre de paramètres impliqués. Par conséquent, le réglage fin efficace des paramètres (PEFT) est devenu de plus en plus populaire pour adapter les LLM à des tâches spécifiques en mettant à jour uniquement un sous-ensemble relativement restreint de paramètres du modèle au lieu de recycler l'ensemble du modèle. La section suivante répertorie quatre méthodes PEFT courantes utilisées en LLM.
Low-Rank Adaptation (LoRA) et les variantes mettent à jour les paramètres via des matrices de bas rang. Mathématiquement, le passage vers l'avant de LoRA lors du réglage fin peut être exprimé par h = W0x + BAx. W0 est le poids figé de LLM, tandis que BA est une matrice de bas rang paramétrée par les matrices a et B nouvellement introduites mises à jour lors de l'étape de réglage fin. Cette approche présente plusieurs avantages évidents. Au cours du processus de réglage fin, seuls B et A sont optimisés, ce qui réduit considérablement la charge de calcul associée aux calculs de gradient et aux mises à jour des paramètres. Une fois le réglage fin terminé et les poids fusionnés, il n’y a aucun coût d’inférence supplémentaire par rapport au modèle d’origine, comme le montre l’équation : h = (W0 + BA) x. De plus, il n'est pas nécessaire de sauvegarder plusieurs copies de LLM pour différentes tâches puisque plusieurs instances LoRA peuvent être enregistrées, réduisant ainsi l'empreinte de stockage.
Layer Freeze : gèle les calques sélectionnés d'un modèle pré-entraîné tout en mettant à jour les autres calques pendant l'entraînement. Cela s'applique généralement aux couches plus proches de l'entrée ou de la sortie du modèle, en fonction de la nature de la tâche et de l'architecture du modèle. Par exemple, dans l'approche 3D-LLM, toutes les couches, à l'exception des intégrations d'entrée et de sortie, peuvent être gelées pour atténuer le risque de surajustement sur des ensembles de données spécifiques à une tâche, conserver des connaissances générales pré-entraînées et réduire les paramètres qui doivent être optimisés.
Prompt Tuning guide le LLM pour effectuer des tâches spécifiques en définissant le cadre du LLM dans les invites, en ajustant les entrées du modèle par rapport au réglage fin traditionnel de l'ajustement des paramètres du modèle. L'ingénierie manuelle des repères est la méthode la plus intuitive, mais il peut être difficile pour les ingénieurs expérimentés en matière de réglage des repères de trouver les meilleurs repères. Un autre ensemble d’approches est la génération et l’optimisation automatisées des pourboires. Une méthode populaire consiste à rechercher exactement le meilleur texte d’invite de saisie, appelé par exemple invite matérielle. Alternativement, des méthodes d'optimisation peuvent être utilisées pour optimiser l'intégration des indices (indices souples).
Réglage précis adaptatifPersonnalisez l'architecture du modèle pour des tâches spécifiques en ajoutant ou en supprimant des couches ou des modules. Cela peut inclure l’intégration de nouvelles modalités de données telles que des informations visuelles et des données textuelles. L'idée principale du réglage fin adaptatif est d'utiliser de petits modules de réseau neuronal insérés entre les couches d'un modèle pré-entraîné. Lors du réglage fin adaptatif, seuls les paramètres de ces modules adaptateurs sont mis à jour, tandis que les poids du modèle d'origine restent inchangés.
Les modèles de langage visuel sont une famille de modèles conçus pour capturer et exploiter la relation entre le texte et les images/vidéos, et pour pouvoir effectuer des tâches interactives entre les deux modalités. La plupart des VLM ont une architecture basée sur Transformer. En tirant parti du module d’attention, le contenu visuel et textuel se conditionnent mutuellement pour parvenir à une interaction mutuelle. Dans les paragraphes suivants, nous présenterons brièvement l'application du VLM dans les tâches discriminatives et génératives.
Tâche de discrimination consiste à prédire une certaine caractéristique des données. Les VLM, tels que CLIP et ALIGN, ont montré des performances extraordinaires en termes de transférabilité zéro-shot vers des données invisibles dans la classification d'images. Les deux modèles comprennent deux modules : un encodeur visuel et un encodeur de texte. Étant donné une image et sa catégorie, CLIP et ALIGN sont entraînés en maximisant la similarité entre l'intégration d'image et l'intégration de texte de la phrase « photo de {catégorie d'image} ». La transférabilité zéro-shot est obtenue en remplaçant « {catégorie d'image} » par des candidats possibles lors de l'inférence et en recherchant les phrases qui correspondent le mieux à l'image. Ces deux travaux ont inspiré de nombreux travaux ultérieurs, améliorant encore la précision de la classification des images. Ces modèles peuvent également extraire les connaissances acquises pour les utiliser dans d'autres tâches, notamment la détection d'objets, la segmentation d'images, la compréhension de documents et la reconnaissance vidéo.
Générer des tâches Utilisez VLM pour générer du texte ou des images à partir des données d'entrée. En exploitant des données de formation à grande échelle, un seul VLM peut souvent effectuer plusieurs tâches de génération d'image en texte, telles que le sous-titrage d'images et la réponse visuelle aux questions (VQA). Des exemples notables incluent SimVLM, BLIP et OFA, entre autres. Des VLM plus puissants, tels que BLIP-2, Flamingo et LLaVA, sont capables de gérer des dialogues et des raisonnements à plusieurs tours basés sur des images d'entrée. Avec l'introduction des modèles de diffusion, la génération de texte en image est également devenue le centre d'intérêt de la communauté des chercheurs. En s'entraînant sur un grand nombre de paires image-texte, les modèles de diffusion peuvent générer des images de haute qualité basées sur la saisie de texte. Cette fonctionnalité s'étend également à la génération de vidéos, de scènes 3D et d'objets 3D dynamiques. En plus de générer des tâches, les images existantes peuvent également être modifiées via des invites textuelles.
Le Vision Foundation Model (VFM) est un réseau neuronal à grande échelle conçu pour extraire des représentations d'images suffisamment diverses et expressives pour être directement déployées dans une variété de tâches en aval, reflétant le LLM pré-entraîné. Rôle dans les tâches NLP en aval. Un exemple notable est DINO, qui utilise un modèle de formation enseignant-élève auto-supervisé. Les représentations apprises obtiennent de bons résultats à la fois en matière de classification d'images et d'appariement sémantique d'images. Les poids d'attention dans DINO peuvent également être utilisés comme masques de segmentation pour les composants sémantiques de la scène observée. Des travaux ultérieurs tels que iBOT et DINOv2 ont encore amélioré la représentation en introduisant une perte de modélisation d'image masquée (MIM). SAM est un modèle de segmentation d'images basé sur un transformateur, formé sur un ensemble de données composé de 1,1 milliard d'images avec des masques sémantiques et présente de fortes capacités de transfert sans prise de vue. DINO (Zhang et al.) — à ne pas confondre avec DINO (Caron et al.) — adopte une architecture de type DETR et une sélection de requêtes hybrides pour la détection d'objets. Le travail de suivi Grounding DINO introduit la supervision de texte pour améliorer la précision. Stable Diffusion est un générateur de texte en image qui est également utilisé comme extracteur de caractéristiques pour des images « réelles » en exécutant une seule étape de diffusion sur une image propre ou artificiellement bruitée et en extrayant des caractéristiques intermédiaires ou des masques d'attention. Ces caractéristiques ont récemment été exploitées pour des tâches de segmentation et d'appariement d'images en raison de la taille et de la diversité des ensembles d'apprentissage utilisés pour les modèles de diffusion, et en raison des propriétés émergentes observées des caractéristiques de diffusion, telles que la correspondance zéro entre les images.
Comme mentionné précédemment, compte tenu de la diversité des représentations 3D, il existe plusieurs façons d'obtenir des fonctionnalités 3D. Comme le montre la colonne « Géométrie 3D » du tableau 1, les nuages de points sont les plus courants en raison de leur simplicité et de leur compatibilité avec divers encodeurs 3D pré-entraînés, ce qui en fait un choix populaire pour les méthodes d'apprentissage multitâches et multimodales. Les images multi-vues sont également souvent utilisées car la recherche sur l'extraction de caractéristiques 2D a mûri, ce qui signifie que l'extraction de caractéristiques 3D ne nécessite que des schémas de levage supplémentaires de 2D à 3D. Les données RVB-D facilement obtenues à l'aide de caméras de profondeur sont souvent utilisées dans les systèmes d'agents intégrés 3D pour extraire des informations relatives aux points de vue à des fins de navigation et de compréhension. Un graphique de scène 3D est une représentation 3D plus abstraite qui permet de modéliser efficacement l'existence d'objets et leurs relations et de capturer des informations de haut niveau sur la scène. Ils sont fréquemment utilisés pour les tâches de classification et de planification de scènes 3D. NeRF est actuellement moins utilisé dans les méthodes 3D-LLM. Nous pensons que cela est dû à leur nature implicite, ce qui les rend plus difficiles à tokeniser et à intégrer aux réseaux de neurones à action directe. Il a été prouvé que les LLM formés sur de grandes quantités de données acquièrent des connaissances de bon sens sur le monde. Le potentiel de la connaissance du monde et des capacités de raisonnement de LLM a été exploré pour améliorer la compréhension des scènes 3D et reformuler le pipeline pour plusieurs tâches 3D. Dans cette section, nous nous concentrons sur les méthodes qui visent à utiliser LLM pour améliorer les performances des méthodes existantes dans les tâches de langage visuel 3D. Lors de l'application du LLM aux tâches 3D, nous pouvons diviser son utilisation en deux groupes : les méthodes d'augmentation des connaissances et les méthodes d'augmentation d'inférence. Les méthodes d'augmentation des connaissances exploitent les vastes connaissances mondiales intégrées dans LLM pour améliorer les performances des tâches 3D. Cela peut fournir des informations contextuelles, combler des lacunes dans les connaissances ou améliorer la compréhension sémantique de l'environnement 3D. Alternativement, les méthodes visant à améliorer l'inférence ne s'appuient pas sur leur connaissance du monde, mais exploitent la capacité du LLM à effectuer une inférence étape par étape, offrant ainsi de meilleures capacités de généralisation à des défis 3D plus complexes. Les deux sections suivantes décrivent chacune de ces méthodes.
En plus d'explorer les apprenants multitâches 3D, certaines recherches récentes combinent également des informations provenant de différentes modalités pour améliorer encore les capacités du modèle et permettre de nouvelles interactions. En plus du texte et des scènes 3D, le LLM 3D multimodal peut également inclure des images 2D, de l'audio ou des informations tactiles dans la scène en entrée.
La plupart des travaux visent à construire un espace de représentation commun à travers différentes modalités. Étant donné que certains travaux existants fournissent déjà des encodeurs pré-entraînés qui mappent du texte, des images ou de l'audio à un espace commun, certains travaux choisissent d'apprendre des encodages 3D qui alignent les intégrations 3D avec les espaces d'intégration d'encodeurs pré-entraînés pour d'autres modalités. JM3D-LLM apprend un encodeur de nuage de points 3D qui aligne l'espace d'intégration des nuages de points avec l'espace d'intégration des images texte de SLIP. Il restitue des séquences d'images de nuages de points et crée des arbres de texte hiérarchiques pendant la formation pour obtenir un alignement détaillé. Point Bind apprend également un encodeur 3D similaire et l'aligne avec ImageBind pour unifier l'espace d'intégration des images, du texte, de l'audio et des nuages de points. Cela permet d'utiliser différentes têtes de tâches pour gérer différentes tâches telles que la récupération, la classification et la génération entre différents modes. Cependant, une limitation notable est que cette approche ne convient qu'aux scènes au niveau des objets à petite échelle, car le traitement de grandes scènes comportant des millions de points est coûteux en termes de calcul pour les encodeurs 3D. De plus, la plupart des encodeurs multimodaux pré-entraînés comme CLIP sont conçus pour les scènes à objet unique et ne conviennent pas aux scènes à grande échelle comportant plusieurs objets et détails locaux.
En revanche, les grandes scènes nécessitent une conception plus détaillée pour intégrer plusieurs modes. ConceptFusion crée une carte de fonctionnalités améliorée qui fusionne les informations globales et les détails locaux de chaque image composante d'une grande scène. Ceci est réalisé en utilisant des extracteurs de fonctionnalités pré-entraînés qui sont déjà alignés sur différentes modalités, notamment le texte et l'audio. Il utilise ensuite les méthodes SLAM traditionnelles pour mapper la carte des caractéristiques au nuage de points de la scène. MultiPLY utilise une représentation similaire à ConceptGraph. Il identifie tous les objets saillants de la scène, obtient l'intégration globale de chaque objet et construit enfin le graphe de la scène. La représentation résultante est une intégration de scène alignée avec l’espace d’intégration de Llama. L'intégration d'autres modalités, notamment l'audio, la température et l'haptique, peut également être cartographiée dans le même espace à l'aide de projections linéaires. Toutes les intégrations sont tokenisées et envoyées immédiatement à LLM. Par rapport aux méthodes capables de gérer des scènes à grande échelle, les méthodes capables de gérer de grandes scènes réduisent les coûts en s'appuyant sur des encodeurs pré-entraînés pour combler les écarts modaux au lieu d'apprendre de nouveaux encodeurs à partir de zéro.
Vous pouvez utiliser les capacités de planification, d'utilisation des outils et de prise de décision de LLM pour créer des agents concrets 3D. Ces capacités permettent à LLM de générer des décisions intelligentes, notamment la navigation dans des environnements 3D, l'interaction avec des objets et la sélection des outils appropriés pour effectuer des tâches spécifiques. Cette section décrit comment les agents concrets 3D effectuent des tâches de planification, de navigation et de manipulation.
Traditionnellement, la modélisation 3D est un processus complexe et chronophage avec une barrière à l'entrée élevée, nécessitant une attention particulière à la géométrie, aux textures et à l'éclairage pour obtenir des résultats réalistes. Dans cette section, nous examinons de plus près l'intégration de LLM avec les technologies de génération 3D, montrant comment le langage fournit un moyen de générer des objets contextualisés dans une scène et fournit des solutions innovantes pour la création et la manipulation de contenu 3D.
Nous étudions ici les méthodes de génération de texte en 3D utilisant le VLM 2D et le guidage à l'aide d'un modèle de diffusion de texte à image à rendu différenciable. Les premiers travaux tels que DreamFields, CLIP-Mesh, CLIP-Forge et Text2Mesh ont exploré la génération 3D zéro tir guidée par CLIP.
DreamFusion introduit le Score Distriction Sampling (SDS), où les paramètres d'une représentation 3D sont optimisés en rendant les rendus sous n'importe quel angle très réalistes, évalués par un modèle de diffusion 2D pré-entraîné. Il utilise un modèle Imagen texte-image pour optimiser la représentation NeRF via SDS. Magic3D propose un cadre en deux étapes : générer un modèle grossier avec un a priori de diffusion basse résolution et un maillage de hachage 3D clairsemé, puis optimiser le modèle de maillage 3D texturé à l'aide d'un moteur de rendu différenciable efficace et d'un modèle de diffusion latente haute résolution. Fantasia3D utilise une représentation hybride DMET et un BRDF spatialement variable pour démêler la géométrie et l'apparence. ProlificDreamer introduit la distillation fractionnée variationnelle (VSD), un cadre basé sur des particules qui traite les paramètres 3D comme des variables aléatoires pour augmenter la fidélité et la diversité. Dream3D exploite des a priori de forme 3D explicites et des modèles de diffusion texte-image pour améliorer la synthèse 3D guidée par texte. MVDream adopte un modèle de diffusion cohérent multi-vues qui peut être entraîné sur une petite quantité de données de prise de vue pour une génération personnalisée. Text2NeRF combine des représentations NeRF avec des modèles de diffusion texte-image pré-entraînés pour générer différentes scènes 3D intérieures/extérieures basées sur la langue. En plus de générer simultanément la géométrie et l'apparence, certaines recherches ont également exploré la possibilité de synthétiser des textures basées uniquement sur une géométrie donnée.
Les modèles de transformateur pré-entraînés sur de grands ensembles de données de texte 3D apprennent de puissantes représentations conjointes qui connectent les modalités visuelles et linguistiques. 3D VisTA est un modèle Transformer qui utilise l'auto-attention pour modéliser conjointement des données visuelles et textuelles 3D afin d'obtenir une pré-formation efficace pour des objectifs tels que la modélisation de langage masqué/cible et la correspondance de texte de scène. UniT3D utilise une méthode Transformer unifiée, combinée à la base de détection 3D PointGroup, à l'encodeur de texte BERT et au module de fusion multimodale, pour pré-entraîner conjointement les données de langage 3D synthétisées. SpatialVLM adopte une stratégie différente pour entraîner conjointement le VLM sur un vaste ensemble de données synthétiques de raisonnement spatial 3D, améliorant ainsi les performances des tâches de réponse aux questions visuelles spatiales 3D et prenant en charge des applications telles que le raisonnement en chaîne de pensée des robots. Multi CLIP pré-entraîne un encodeur de scène 3D pour aligner les caractéristiques de la scène avec les intégrations de texte et d'images de CLIP, dans le but de transférer les connaissances de CLIP pour améliorer la compréhension 3D pour des tâches telles que la réponse visuelle aux questions.
Malgré les progrès dans l'intégration du LLM aux données 3D, il existe encore des défis en matière de représentation des données, d'efficacité informatique et de références qui nécessitent une solution innovante.
Le choix de la représentation a un fort impact sur les performances des modèles de langage visuel 3D. Actuellement, les nuages de points sont principalement utilisés pour représenter les environnements intérieurs (par exemple, les sommets d'un maillage) et extérieurs (par exemple, les nuages de points lidar) en raison de leur simplicité et de leur compatibilité avec les réseaux neuronaux. Cependant, ils ont du mal à capturer les détails cruciaux pour des modèles spatiaux précis et riches. Le développement de nouvelles représentations de scènes 3D qui comblent plus efficacement le fossé entre les informations spatiales et le langage peut ouvrir de nouveaux niveaux de compréhension et d’interaction. En trouvant des moyens innovants de coder des informations linguistiques et sémantiques dans des représentations 3D, par exemple en utilisant des intégrations linguistiques et sémantiques extraites, nous pouvons contribuer à combler le fossé entre ces deux modalités.
Le traitement des données 3D et les exigences informatiques du LLM posent des défis importants. À mesure que la complexité des environnements 3D et la taille des modèles de langage augmentent, l’évolutivité reste une préoccupation. Les progrès des architectures LLM conçues pour l’adaptabilité et l’efficacité informatique peuvent élargir considérablement la base de leur amélioration et sont essentielles pour évaluer et améliorer de manière globale les capacités des LLM multimodaux dans les tâches 3D. La portée limitée des benchmarks actuels, notamment en matière de raisonnement tridimensionnel, entrave l'évaluation des compétences de raisonnement spatial et le développement de systèmes de prise de décision/d'interaction tridimensionnels. De plus, les métriques actuellement utilisées ne capturent pas pleinement les capacités du LLM dans les environnements 3D. Il est crucial de développer des métriques spécifiques aux tâches pour mesurer plus précisément les performances des différentes tâches 3D. Enfin, la granularité des benchmarks actuels de compréhension des scènes est trop simple, ce qui limite la compréhension approfondie des environnements 3D complexes. Un ensemble de tâches plus diversifiées est nécessaire.
L'amélioration des benchmarks est essentielle pour évaluer et améliorer pleinement les capacités du LLM multimodal dans les tâches 3D. La portée limitée des benchmarks actuels, notamment en matière de raisonnement tridimensionnel, entrave l'évaluation des compétences de raisonnement spatial et le développement de systèmes de prise de décision/d'interaction tridimensionnels. De plus, les métriques actuellement utilisées ne capturent pas pleinement les fonctionnalités de LLM dans les environnements 3D. Il est crucial de développer des métriques spécifiques aux tâches pour mesurer plus précisément les performances des différentes tâches 3D. Enfin, la granularité des benchmarks actuels de compréhension des scènes est trop simple, ce qui limite la compréhension approfondie des environnements 3D complexes. Un ensemble de tâches plus diversifiées est nécessaire.
Les implications en matière de sécurité et d'éthique doivent être prises en compte lors de l'utilisation du LLM pour la compréhension 3D. LLM peut halluciner et produire des informations inexactes et dangereuses, conduisant à des décisions incorrectes dans les applications 3D critiques. De plus, les LLM échouent souvent de manière imprévisible et difficile à expliquer. Ils peuvent également hériter des préjugés sociaux présents dans les données d’entraînement, pénalisant certains groupes lorsqu’ils font des prédictions dans des scènes 3D réelles. Il est crucial que les LLM soient utilisés avec prudence dans les environnements 3D, en utilisant des stratégies pour créer des ensembles de données plus inclusifs, des cadres d'évaluation robustes pour la détection et la correction des biais, et des mécanismes pour minimiser les hallucinations afin de garantir la responsabilité et l'équité des résultats.
Cet article propose une exploration approfondie de l'intégration des données LLM et 3D. Cette enquête examine systématiquement les méthodes, les applications et les capacités émergentes du LLM en matière de traitement, de compréhension et de génération de données 3D, soulignant le potentiel de transformation du LLM dans une gamme de tâches 3D. De l’amélioration de la compréhension spatiale et de l’interaction dans des environnements tridimensionnels à l’avancement des capacités des systèmes d’intelligence artificielle embarqués, LLM joue un rôle clé dans l’avancement du domaine.
Les principales conclusions incluent l'identification des avantages uniques du LLM, tels que l'apprentissage sans tir, le raisonnement avancé et la connaissance approfondie du monde, qui aident à combler le fossé entre les informations textuelles et l'interprétation spatiale. Cet article démontre l'intégration LLM avec des données 3D pour un large éventail de tâches. L’exploration d’autres méthodes de langage visuel 3D avec LLM révèle de riches perspectives de recherche visant à approfondir notre compréhension du monde 3D.
En outre, l'enquête met en évidence des défis importants tels que la représentation des données, l'évolutivité des modèles et l'efficacité des calculs, démontrant qu'il est essentiel de surmonter ces obstacles pour réaliser pleinement le potentiel du LLM dans les applications 3D. En résumé, cette enquête fournit non seulement un aperçu complet de l’état actuel des tâches 3D utilisant le LLM, mais jette également les bases des futures orientations de recherche. Il appelle à une collaboration pour explorer et étendre les capacités de LLM en matière de compréhension et d'interaction avec des mondes 3D complexes, ouvrant ainsi la voie à de nouvelles avancées dans le domaine de l'intelligence spatiale.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!