Maison > Périphériques technologiques > IA > Les dernières nouvelles de l'Université d'Oxford | Près de 400 résumés ! Parlez de la dernière revue des grands modèles de langage et du monde tridimensionnel

Les dernières nouvelles de l'Université d'Oxford | Près de 400 résumés ! Parlez de la dernière revue des grands modèles de langage et du monde tridimensionnel

WBOY
Libérer: 2024-06-02 19:41:32
original
469 Les gens l'ont consulté

Écrit devant et compréhension personnelle de l'auteur

Avec le développement des grands modèles de langage (LLM), des progrès rapides ont été réalisés dans l'intégration entre eux et les données spatiales 3D (3D LLM), fournissant une base pour la compréhension physique l’espace et la physique. L’interaction spatiale offre des capacités sans précédent. Cet article fournit un aperçu complet de l'approche de LLM en matière de traitement, de compréhension et de génération de données 3D. Nous soulignons les avantages uniques des LLM, tels que l'apprentissage contextuel, le raisonnement par étapes, les capacités de vocabulaire ouvert et la vaste connaissance du monde, et soulignons leur potentiel pour faire progresser la compréhension spatiale et l'interaction avec les systèmes d'intelligence artificielle (IA) intégrés. Nos recherches couvrent diverses représentations de données 3D, des nuages ​​de points aux champs de rendu neuronal (NeRF). Nous analysons leur intégration avec LLM pour des tâches telles que la compréhension de scènes 3D, les sous-titres, la réponse aux questions et le dialogue, ainsi que les agents basés sur LLM pour le raisonnement spatial, la planification et la navigation. L'article passe également brièvement en revue d'autres approches combinées 3D et langage pertinentes, révélant davantage les progrès significatifs mais soulignant la nécessité d'exploiter tout le potentiel des LLM 3D. Par conséquent, à travers ce document de discussion, nous visons à tracer la voie à suivre pour les recherches futures visant à explorer et à étendre les capacités du 3D LLM à comprendre et à interagir avec des mondes 3D complexes.

Lien open source : https://github.com/ActiveVisionLab/Awesome-LLM-3D

牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

Contexte connexe

Cette section fournit des informations sur la représentation tridimensionnelle, le grand modèle de langage (LLM) et modèle de langage visuel bidimensionnel (VLM) et Vision Foundation Model (VFM).

Représentations 3D

La sélection de représentations 3D pour décrire, modéliser et comprendre notre monde est un sujet crucial qui permet de comprendre les progrès actuels du LLM 3D. C'est aussi un domaine de recherche fondamental en vision par ordinateur. Ce domaine a connu récemment une croissance considérable en raison des progrès de l'apprentissage profond, des ressources informatiques et de la disponibilité des données 3D. Nous présentons brièvement les représentations tridimensionnelles les plus courantes actuellement utilisées.

Nuage de points : représente une forme tridimensionnelle comme un ensemble de points de données dans l'espace, stockant la position de chaque point dans un système de coordonnées cartésiennes tridimensionnelles. En plus de stocker l'emplacement, d'autres informations sur chaque point peuvent être stockées (par exemple couleur, normale). Les méthodes basées sur les nuages ​​de points sont connues pour leur faible empreinte de stockage, mais manquent d'informations sur la topologie de surface. Les sources typiques pour obtenir des nuages ​​de points comprennent les capteurs lidar, les scanners à lumière structurée, les caméras à temps de vol, les vues stéréo, la photogrammétrie, etc.

Grille Voxel : Elle se compose de cubes unitaires dans un espace tridimensionnel, similaires à la représentation en pixels dans un espace bidimensionnel. Chaque voxel code de manière minimale les informations d'occupation (binaire ou probabiliste), mais peut en outre coder la distance à la surface, comme dans une fonction de distance signée (SDF) ou une fonction de distance signée tronquée (TSDF). Cependant, lorsque des détails haute résolution sont requis, l’empreinte mémoire peut devenir excessive.

Polygon Mesh : Représentation composée de sommets et de surfaces qui peuvent décrire de manière compacte des formes tridimensionnelles complexes. Cependant, leur nature non structurée et non différenciable pose des défis lors de leur intégration aux réseaux de neurones pour réaliser des pipelines différenciables de bout en bout. Certaines solutions à ce problème, telles que les méthodes basées sur l’approximation du gradient, ne peuvent utiliser que des calculs de gradient artisanaux. D'autres solutions, telles que les rastériseurs différenciables, peuvent conduire à des résultats de rendu inexacts, tels qu'un contenu flou.

Ces dernières années, la communauté de recherche sur la scène neuronale 3D suscite un intérêt croissant, contrairement aux représentations traditionnelles qui reposent sur des éléments géométriques. Les scènes neuronales sont des mappages de coordonnées spatiales aux propriétés de la scène (telles que l'occupation, la couleur, l'intensité, etc.), mais contrairement aux grilles matérielles, dans les scènes neuronales, le mappage est une fonction apprise, généralement un perceptron multicouche. De cette manière, Neural Scenes apprend implicitement des représentations de formes et de scènes 3D géométriques, continues et différenciables.

Un ensemble de réseaux de neurones se concentre sur la représentation implicite des surfaces. Les réseaux d'occupation codent la forme dans une fonction d'occupation 3D continue représentée par un réseau neuronal, en utilisant des emplacements de points 3D et des caractéristiques provenant de nuages ​​de points, de voxels basse résolution ou d'images pour estimer les probabilités d'occupation. Pendant ce temps, le réseau SDF profond utilise un réseau neuronal pour estimer le SDF à partir de coordonnées et de gradients 3D. Il a été démontré que des méthodes récentes, telles que NeuS et NeuS2, améliorent la fidélité et l'efficacité de la reconstruction de surface pour les cibles statiques et dynamiques.

Un autre groupe de méthodes appelées Neural Radiation Fields (NeRF) a montré de puissantes capacités de rendu photoréaliste pour les mondes 3D. Ces méthodes utilisent des techniques de codage de position pour coder les détails de la scène et exploiter le MLP pour prédire les valeurs de radiance (couleur et opacité) des rayons de la caméra. Cependant, la nécessité du MLP de déduire les détails de couleur et d'occupation de chaque point d'échantillonnage dans l'espace (y compris les points d'échantillonnage dans un espace vide) nécessite des ressources informatiques importantes. Par conséquent, il existe une forte incitation à réduire la charge de calcul de NeRF pour les applications en temps réel.

La représentation hybride tente de combiner la technologie NeRF avec des méthodes traditionnelles basées sur le volume pour faciliter un rendu en temps réel de haute qualité. Par exemple, la combinaison de grilles de voxels ou de grilles de hachage multi-résolution avec des réseaux de neurones réduit considérablement les temps de formation et d'inférence NeRF.

La diffusion gaussienne 3D est une variante de nuages ​​de points où chaque point contient des informations supplémentaires représentant le rayonnement émis dans la région de l'espace entourant ce point sous forme de "blobs" gaussiens 3D anisotropes. Ces gaussiennes 3D sont généralement initialisées à partir de nuages ​​de points SfM et optimisées à l'aide d'un rendu différenciable. La diffusion gaussienne 3D permet une nouvelle synthèse de vues de pointe à une fraction du calcul NeRF en tirant parti d'une rastérisation efficace au lieu du traçage de rayons.

LLM

Le traitement traditionnel du langage naturel (NLP) englobe un large éventail de tâches conçues pour permettre aux systèmes de comprendre, générer et manipuler du texte. Les premières approches de la PNL reposaient sur des techniques telles que les systèmes basés sur des règles, les modèles statistiques et les premières architectures neuronales telles que les réseaux neuronaux récurrents. Le grand modèle de langage (LLM) récemment introduit adopte une architecture de transformateur et est formé sur un grand corpus de texte, atteignant des performances sans précédent et déclenchant un nouvel engouement dans le domaine. Étant donné que cet article se concentre sur le LLM tridimensionnel, nous fournissons ici des connaissances de base pertinentes sur le LLM. Pour explorer LLM en profondeur, nous nous référons aux enquêtes récentes menées dans la région.

Structure LLM

Dans le contexte du LLM, les architectures « encodeur-décodeur » et « décodeur uniquement » sont principalement utilisées pour les tâches NLP.

  • Architectures d'encodeur-décodeur ;
  • Architectures de décodeur uniquement ;
  • Tokenisation : la tokenisation est une méthode de prétraitement qui décompose le texte d'entrée en séquences de jetons, qui sont les unités de données de base dans les modèles de langage. Le nombre de jetons est limité et chaque jeton peut correspondre à un mot, un sous-mot ou une seule lettre. Lors de l'inférence, le texte d'entrée est converti en une séquence de jetons et transmis au modèle, qui prédit les jetons de sortie, puis reconvertit les jetons de sortie en texte. La tokenisation a un fort impact sur les performances des modèles de langage, car elle affecte la perception du texte par le modèle. Diverses techniques de tokenisation sont utilisées, telles que la tokenisation au niveau des mots, la tokenisation des sous-mots (par exemple, codage par paire d'octets, WordPièce, PencePièce) et la tokenisation au niveau des caractères.

Capacités émergentes LLM

Une différence majeure entre les méthodes LLM et non-LLM traditionnelles réside dans les capacités émergentes qui sont disponibles dans les grands modèles mais non présentes dans les petits modèles. Le terme « capacités d’urgence » fait référence à de nouvelles capacités complexes qui apparaissent à mesure que les LLM augmentent en taille et en complexité. Ces capacités permettent aux utilisateurs de comprendre et de générer en profondeur un langage naturel, de résoudre des problèmes dans divers domaines sans formation spécifique et de s'adapter à de nouvelles tâches grâce à l'apprentissage contextuel. Dans ce qui suit, nous présenterons plusieurs capacités émergentes communes dans le cadre du LLM.

Apprentissage contextuel fait référence à la capacité du LLM à comprendre et à répondre à de nouvelles tâches ou requêtes en fonction du contexte fourni dans les invites, sans avoir besoin d'un recyclage ou d'un réglage explicite. Les articles phares (GPT-2/GPT-3) démontrent l'apprentissage contextuel dans une approche multi-shot, où le modèle reçoit plusieurs exemples de tâches dans une invite, puis est invité à traiter différents exemples sans formation explicite préalable. Les LLM de pointe, tels que GPT-4, présentent des capacités d'apprentissage contextuel extraordinaires, comprenant des instructions complexes et effectuant un large éventail de tâches allant de la simple traduction à la génération de code et à l'écriture créative, le tout basé sur le contexte fourni dans les invites. .

Le raisonnement en LLM, souvent appelé « chaîne de réflexion », implique des modèles qui génèrent des étapes intermédiaires ou des chemins de raisonnement lorsqu'il s'agit de problèmes ou de problèmes complexes. Cette approche permet à LLM de diviser les tâches en parties plus petites et gérables, favorisant ainsi un processus de solution plus structuré et plus compréhensible. Pour y parvenir, la formation implique des ensembles de données comprenant diverses tâches de résolution de problèmes, des énigmes logiques et des ensembles de données conçus pour simuler un raisonnement dans des conditions d'incertitude. Les LLM de pointe actuels présentent généralement des capacités d'inférence avancées lorsque la taille des modèles est supérieure à 60 B à 100 B de paramètres.

Conformité des instructions fait référence à la capacité du modèle à comprendre et à exécuter des commandes, ou à la capacité d'exécuter les instructions spécifiées par l'utilisateur. Cela inclut l’analyse de l’instruction, la compréhension de son intention et la génération d’une réponse ou d’une action appropriée. Les méthodes utilisées pour adapter cette capacité à de nouvelles tâches peuvent nécessiter une adaptation des instructions à partir d'un ensemble de données contenant une variété d'instructions associées à la réponse ou à l'action correcte. Des techniques telles que l’apprentissage supervisé, l’apprentissage par renforcement à partir de commentaires humains et l’apprentissage interactif peuvent encore améliorer les performances.

LLM Fine-tuning

Dans le contexte du LLM 3D, le LLM est soit utilisé directement dans son état pré-entraîné, soit affiné pour s'adapter à de nouvelles tâches multimodales. Cependant, le réglage fin de l’ensemble des paramètres de LLM pose d’importants défis de calcul et de mémoire en raison du grand nombre de paramètres impliqués. Par conséquent, le réglage fin efficace des paramètres (PEFT) est devenu de plus en plus populaire pour adapter les LLM à des tâches spécifiques en mettant à jour uniquement un sous-ensemble relativement restreint de paramètres du modèle au lieu de recycler l'ensemble du modèle. La section suivante répertorie quatre méthodes PEFT courantes utilisées en LLM.

Low-Rank Adaptation (LoRA) et les variantes mettent à jour les paramètres via des matrices de bas rang. Mathématiquement, le passage vers l'avant de LoRA lors du réglage fin peut être exprimé par h = W0x + BAx. W0 est le poids figé de LLM, tandis que BA est une matrice de bas rang paramétrée par les matrices a et B nouvellement introduites mises à jour lors de l'étape de réglage fin. Cette approche présente plusieurs avantages évidents. Au cours du processus de réglage fin, seuls B et A sont optimisés, ce qui réduit considérablement la charge de calcul associée aux calculs de gradient et aux mises à jour des paramètres. Une fois le réglage fin terminé et les poids fusionnés, il n’y a aucun coût d’inférence supplémentaire par rapport au modèle d’origine, comme le montre l’équation : h = (W0 + BA) x. De plus, il n'est pas nécessaire de sauvegarder plusieurs copies de LLM pour différentes tâches puisque plusieurs instances LoRA peuvent être enregistrées, réduisant ainsi l'empreinte de stockage.

Layer Freeze : gèle les calques sélectionnés d'un modèle pré-entraîné tout en mettant à jour les autres calques pendant l'entraînement. Cela s'applique généralement aux couches plus proches de l'entrée ou de la sortie du modèle, en fonction de la nature de la tâche et de l'architecture du modèle. Par exemple, dans l'approche 3D-LLM, toutes les couches, à l'exception des intégrations d'entrée et de sortie, peuvent être gelées pour atténuer le risque de surajustement sur des ensembles de données spécifiques à une tâche, conserver des connaissances générales pré-entraînées et réduire les paramètres qui doivent être optimisés.

Prompt Tuning guide le LLM pour effectuer des tâches spécifiques en définissant le cadre du LLM dans les invites, en ajustant les entrées du modèle par rapport au réglage fin traditionnel de l'ajustement des paramètres du modèle. L'ingénierie manuelle des repères est la méthode la plus intuitive, mais il peut être difficile pour les ingénieurs expérimentés en matière de réglage des repères de trouver les meilleurs repères. Un autre ensemble d’approches est la génération et l’optimisation automatisées des pourboires. Une méthode populaire consiste à rechercher exactement le meilleur texte d’invite de saisie, appelé par exemple invite matérielle. Alternativement, des méthodes d'optimisation peuvent être utilisées pour optimiser l'intégration des indices (indices souples).

Réglage précis adaptatifPersonnalisez l'architecture du modèle pour des tâches spécifiques en ajoutant ou en supprimant des couches ou des modules. Cela peut inclure l’intégration de nouvelles modalités de données telles que des informations visuelles et des données textuelles. L'idée principale du réglage fin adaptatif est d'utiliser de petits modules de réseau neuronal insérés entre les couches d'un modèle pré-entraîné. Lors du réglage fin adaptatif, seuls les paramètres de ces modules adaptateurs sont mis à jour, tandis que les poids du modèle d'origine restent inchangés.

Modèles Vision-Langage 2D

Les modèles de langage visuel sont une famille de modèles conçus pour capturer et exploiter la relation entre le texte et les images/vidéos, et pour pouvoir effectuer des tâches interactives entre les deux modalités. La plupart des VLM ont une architecture basée sur Transformer. En tirant parti du module d’attention, le contenu visuel et textuel se conditionnent mutuellement pour parvenir à une interaction mutuelle. Dans les paragraphes suivants, nous présenterons brièvement l'application du VLM dans les tâches discriminatives et génératives.

Tâche de discrimination consiste à prédire une certaine caractéristique des données. Les VLM, tels que CLIP et ALIGN, ont montré des performances extraordinaires en termes de transférabilité zéro-shot vers des données invisibles dans la classification d'images. Les deux modèles comprennent deux modules : un encodeur visuel et un encodeur de texte. Étant donné une image et sa catégorie, CLIP et ALIGN sont entraînés en maximisant la similarité entre l'intégration d'image et l'intégration de texte de la phrase « photo de {catégorie d'image} ». La transférabilité zéro-shot est obtenue en remplaçant « {catégorie d'image} » par des candidats possibles lors de l'inférence et en recherchant les phrases qui correspondent le mieux à l'image. Ces deux travaux ont inspiré de nombreux travaux ultérieurs, améliorant encore la précision de la classification des images. Ces modèles peuvent également extraire les connaissances acquises pour les utiliser dans d'autres tâches, notamment la détection d'objets, la segmentation d'images, la compréhension de documents et la reconnaissance vidéo.

Générer des tâches Utilisez VLM pour générer du texte ou des images à partir des données d'entrée. En exploitant des données de formation à grande échelle, un seul VLM peut souvent effectuer plusieurs tâches de génération d'image en texte, telles que le sous-titrage d'images et la réponse visuelle aux questions (VQA). Des exemples notables incluent SimVLM, BLIP et OFA, entre autres. Des VLM plus puissants, tels que BLIP-2, Flamingo et LLaVA, sont capables de gérer des dialogues et des raisonnements à plusieurs tours basés sur des images d'entrée. Avec l'introduction des modèles de diffusion, la génération de texte en image est également devenue le centre d'intérêt de la communauté des chercheurs. En s'entraînant sur un grand nombre de paires image-texte, les modèles de diffusion peuvent générer des images de haute qualité basées sur la saisie de texte. Cette fonctionnalité s'étend également à la génération de vidéos, de scènes 3D et d'objets 3D dynamiques. En plus de générer des tâches, les images existantes peuvent également être modifiées via des invites textuelles.

Vision Foundation Models

Le Vision Foundation Model (VFM) est un réseau neuronal à grande échelle conçu pour extraire des représentations d'images suffisamment diverses et expressives pour être directement déployées dans une variété de tâches en aval, reflétant le LLM pré-entraîné. Rôle dans les tâches NLP en aval. Un exemple notable est DINO, qui utilise un modèle de formation enseignant-élève auto-supervisé. Les représentations apprises obtiennent de bons résultats à la fois en matière de classification d'images et d'appariement sémantique d'images. Les poids d'attention dans DINO peuvent également être utilisés comme masques de segmentation pour les composants sémantiques de la scène observée. Des travaux ultérieurs tels que iBOT et DINOv2 ont encore amélioré la représentation en introduisant une perte de modélisation d'image masquée (MIM). SAM est un modèle de segmentation d'images basé sur un transformateur, formé sur un ensemble de données composé de 1,1 milliard d'images avec des masques sémantiques et présente de fortes capacités de transfert sans prise de vue. DINO (Zhang et al.) — à ne pas confondre avec DINO (Caron et al.) — adopte une architecture de type DETR et une sélection de requêtes hybrides pour la détection d'objets. Le travail de suivi Grounding DINO introduit la supervision de texte pour améliorer la précision. Stable Diffusion est un générateur de texte en image qui est également utilisé comme extracteur de caractéristiques pour des images « réelles » en exécutant une seule étape de diffusion sur une image propre ou artificiellement bruitée et en extrayant des caractéristiques intermédiaires ou des masques d'attention. Ces caractéristiques ont récemment été exploitées pour des tâches de segmentation et d'appariement d'images en raison de la taille et de la diversité des ensembles d'apprentissage utilisés pour les modèles de diffusion, et en raison des propriétés émergentes observées des caractéristiques de diffusion, telles que la correspondance zéro entre les images.

Tâche

Sous-titrage 3D (3D → Texte)

  • Sous-titrage au niveau de l'objet
  • Sous-titrage au niveau de la scène
  • Sous-titrage dense 3D

Mise à la terre 3D (3D + Texte → Position 3D)

  • Mise à la terre d'un seul objet
  • Mise à la terre multi-objets

Conversation 3D (3D + Texte → Texte)

  • Réponse aux questions 3D (3D-QA)
  • Réponse aux questions situées 3D (3D-SQA)
  • Dialogue 3D

Génération d'objets 3DGénération de scènes 3D

    Édition 3D
  • TACHES 3D AVEC LLMS
Les tâches de compréhension de scènes 3D ont été largement étudiées. Le cœur de la compréhension de la scène consiste à identifier et à classer tous les objets dans un environnement tridimensionnel spécifié, un processus appelé compréhension sémantique ou au niveau de l'instance. Cette étape est cruciale car elle constitue la base pour construire des interprétations plus subtiles. Par la suite, la compréhension des scènes de niveau supérieur se concentre sur la compréhension spatiale, qui fait référence à la construction de graphiques de scènes spatiales et à la sémantique des relations cibles. En allant plus loin, des interactions potentielles telles que les possibilités et les changements de scène peuvent être prédites, ainsi que la compréhension du contexte plus large de la scène, comme la fonctionnalité et le style esthétique. Les données 3D présentent également des défis uniques qui n'existent pas en 2D, tels que le coût relativement élevé d'obtention et d'étiquetage des données 3D, des structures de données 3D clairsemées qui ne sont pas uniformément denses ou alignées avec la grille, et la nécessité de coordonner plusieurs (éventuellement occultées). ) point de vue. Pour ce faire, les chercheurs ont exploité le pouvoir du langage pour intégrer la sémantique et les relations dans le monde 3D. Des efforts récents visant à intégrer de grands modèles de langage (LLM) avec des données 3D ont montré que l'exploitation des atouts inhérents des LLM, à savoir l'apprentissage sans tir, l'apprentissage contextuel, le raisonnement par étapes et la connaissance approfondie du monde, est prometteuse pour parvenir à une compréhension et une interaction à plusieurs niveaux. .

  • Comment les LLM traitent-ils les informations de scène 3D ?
  • Le LLM traditionnel est limité au texte en entrée et en sortie, ce qui fait de la possibilité d'ingérer des informations 3D l'objectif principal de toutes les méthodes 3D-LLM. L'idée générale est de mapper les informations d'un objet ou d'une scène 3D dans l'espace linguistique afin que LLM puisse comprendre et traiter ces entrées 3D. Plus précisément, cela implique généralement deux étapes : (i) utiliser un encodeur 3D pré-entraîné pour traiter la représentation 3D correspondante afin de produire des fonctionnalités 3D brutes ; (ii) utiliser un module d'alignement pour convertir ces fonctionnalités 3D en 3D que LLM peut traiter en balises ; similaire au processus de tokenisation décrit. Le LLM pré-entraîné peut ensuite utiliser ces marqueurs 3D alignés lors de la génération de la sortie.

Comme mentionné précédemment, compte tenu de la diversité des représentations 3D, il existe plusieurs façons d'obtenir des fonctionnalités 3D. Comme le montre la colonne « Géométrie 3D » du tableau 1, les nuages ​​de points sont les plus courants en raison de leur simplicité et de leur compatibilité avec divers encodeurs 3D pré-entraînés, ce qui en fait un choix populaire pour les méthodes d'apprentissage multitâches et multimodales. Les images multi-vues sont également souvent utilisées car la recherche sur l'extraction de caractéristiques 2D a mûri, ce qui signifie que l'extraction de caractéristiques 3D ne nécessite que des schémas de levage supplémentaires de 2D à 3D. Les données RVB-D facilement obtenues à l'aide de caméras de profondeur sont souvent utilisées dans les systèmes d'agents intégrés 3D pour extraire des informations relatives aux points de vue à des fins de navigation et de compréhension. Un graphique de scène 3D est une représentation 3D plus abstraite qui permet de modéliser efficacement l'existence d'objets et leurs relations et de capturer des informations de haut niveau sur la scène. Ils sont fréquemment utilisés pour les tâches de classification et de planification de scènes 3D. NeRF est actuellement moins utilisé dans les méthodes 3D-LLM. Nous pensons que cela est dû à leur nature implicite, ce qui les rend plus difficiles à tokeniser et à intégrer aux réseaux de neurones à action directe. Il a été prouvé que les LLM formés sur de grandes quantités de données acquièrent des connaissances de bon sens sur le monde. Le potentiel de la connaissance du monde et des capacités de raisonnement de LLM a été exploré pour améliorer la compréhension des scènes 3D et reformuler le pipeline pour plusieurs tâches 3D. Dans cette section, nous nous concentrons sur les méthodes qui visent à utiliser LLM pour améliorer les performances des méthodes existantes dans les tâches de langage visuel 3D. Lors de l'application du LLM aux tâches 3D, nous pouvons diviser son utilisation en deux groupes : les méthodes d'augmentation des connaissances et les méthodes d'augmentation d'inférence. Les méthodes d'augmentation des connaissances exploitent les vastes connaissances mondiales intégrées dans LLM pour améliorer les performances des tâches 3D. Cela peut fournir des informations contextuelles, combler des lacunes dans les connaissances ou améliorer la compréhension sémantique de l'environnement 3D. Alternativement, les méthodes visant à améliorer l'inférence ne s'appuient pas sur leur connaissance du monde, mais exploitent la capacité du LLM à effectuer une inférence étape par étape, offrant ainsi de meilleures capacités de généralisation à des défis 3D plus complexes. Les deux sections suivantes décrivent chacune de ces méthodes.

Approches améliorées par les connaissances : il existe plusieurs façons d'exploiter les connaissances du monde LLM. Chen et al. ont utilisé LLM pour la classification de pièces 3D à partir d'images RVB-D. Ici, les connaissances intégrées dans LLM sont utilisées pour déterminer la catégorie de pièce en fonction des informations sur la catégorie d'objet contenues dans la pièce. Premièrement, cette approche crée un graphique de scène à partir des données Matterport3D, qui contient des nœuds pour les zones et les objets, ainsi que des nœuds d'objets liés aux nœuds de pièce. Ensuite, sélectionnez les objets clés pour former une requête pour chaque type de pièce. Description des scores LLM extraits des objets sélectionnés, le score le plus élevé prédisant l'étiquette de la pièce. Des informations spatiales telles que la taille ou l'emplacement peuvent également être fournies.

Approches améliorées par le raisonnement : en plus de la connaissance du monde, les capacités de raisonnement de LLM aident également à gérer d'autres tâches 3D, en particulier les bases de la vision dans des scènes 3D complexes avec une géométrie détaillée et plusieurs objets. Dans ce cas, les descriptions textuelles des objets doivent inclure leur apparence et leur relation spatiale avec les éléments environnants. Les méthodes de mise à la terre ordinaires sont souvent difficiles dans cette situation en raison de l’incapacité à comprendre les descriptions textuelles détaillées. LLM-Grounder, Transcribe3D et Zero-shot 3DVG résolvent ce problème en tirant parti des capacités d'inférence de LLM pour analyser les descriptions de texte et générer une série d'instructions pour localiser les objets à l'aide de la boîte à outils de mise à la terre existante.

  • LLM pour l'apprentissage multitâche 3D
  • De nombreux travaux se concentrent sur l'utilisation du suivi des instructions et des capacités d'apprentissage contextuel de LLM pour unifier plusieurs tâches 3D dans un espace linguistique. En utilisant différentes invites textuelles pour représenter différentes tâches, ces études visent à faire du LLM une interface conversationnelle unifiée. La mise en œuvre d'un apprentissage multitâche à l'aide de LLM implique généralement plusieurs étapes clés, à commencer par la construction de paires de données texte 3D. Ces appariements nécessitent de rédiger des instructions de tâche sous forme de texte et de définir le résultat pour chaque tâche différente. Ensuite, les données 3D (généralement sous forme de nuages ​​de points) sont transmises à un encodeur 3D pour extraire les caractéristiques 3D. Le module d'alignement est ensuite utilisé pour (i) aligner les fonctionnalités 3D avec les incorporations de texte de LLM à plusieurs niveaux (niveau objet, niveau relation et niveau scène) et (ii) traduire les fonctionnalités 3D en jetons interprétables LLM. Enfin, une stratégie de formation appropriée doit être sélectionnée, telle qu'une formation à l'alignement du langage 3D en une ou plusieurs étapes et un réglage précis de l'instruction multitâche.

Dans le reste de cette section, nous explorerons ces aspects en détail. Nous résumons également la portée et les capacités de chaque méthode examinée dans cette section dans le tableau 2.

  • Données pour l'apprentissage multitâche : comme le montre le tableau 2, nous classons les tâches en quatre catégories : sous-titres, bases, réponses aux questions (AQ) et tâches spécifiques de l'agent (c'est-à-dire la planification, la navigation et l'exploitation). Par conséquent, la sortie texte de chaque tâche suit un format prédéfini. Pour les sous-titres et les tâches d’assurance qualité, le résultat est du texte brut et n’est pas limité à un format spécifique. Le résultat de la tâche de base est un cadre de délimitation 3D, généralement les coordonnées centrales de l'objet de référence et sa taille 3D. En règle générale, les valeurs des points et des tailles sont normalisées pour se situer dans la plage de 0 à 255, ce qui limite la plage de jetons que LLM doit prédire. Pour la planification, le modèle génère une séquence d'étapes pour effectuer une tâche sous forme de texte, tandis que pour la navigation, le résultat est une séquence de coordonnées spatiales. Pour les actions, le résultat est une séquence textuelle d’actions. Les méthodes existantes suivent ces directives pour créer leurs ensembles de données de réglage fin des instructions multitâches.
  • Formation d'un LLM pour plusieurs tâches 3D : La première étape de la formation d'un LLM pour plusieurs tâches 3D consiste à obtenir des fonctionnalités 3D significatives, où la méthode d'extraction varie en fonction du type de scène 3D. Pour les nuages ​​de points d'objet unique, point LLM, Chat-3D et GPT4Point utilisent le point BERT pour extraire les caractéristiques des objets 3D. Pour les scènes d'intérieur, LEO utilise PointNet++ pour l'extraction de fonctionnalités, tandis que Chat-3D v2 et 3DMIT segmentent la scène et utilisent Uni-3D pour extraire les fonctionnalités de chaque partie segmentée. Dans le même temps, MultiPLY intègre les caractéristiques de l'objet extrait dans le graphique de la scène pour représenter la scène entière. 3D-LLM et Scene LLM élèvent les fonctionnalités des images multi-vues 2D vers des représentations 3D. 3D-LLM extrait les caractéristiques sémantiques 2D de Mask2Former ou SAM. Scene LLM suit ConceptFusion pour fusionner les informations globales et les détails locaux, en mappant les fonctionnalités CLIP pixel par pixel en fonctionnalités 3D point par point. Pour les scènes 3D extérieures, LiDAR LLM utilise VoxelNet pour extraire les caractéristiques du voxel 3D.

Les LLM comme interfaces multimodales 3D

En plus d'explorer les apprenants multitâches 3D, certaines recherches récentes combinent également des informations provenant de différentes modalités pour améliorer encore les capacités du modèle et permettre de nouvelles interactions. En plus du texte et des scènes 3D, le LLM 3D multimodal peut également inclure des images 2D, de l'audio ou des informations tactiles dans la scène en entrée.

La plupart des travaux visent à construire un espace de représentation commun à travers différentes modalités. Étant donné que certains travaux existants fournissent déjà des encodeurs pré-entraînés qui mappent du texte, des images ou de l'audio à un espace commun, certains travaux choisissent d'apprendre des encodages 3D qui alignent les intégrations 3D avec les espaces d'intégration d'encodeurs pré-entraînés pour d'autres modalités. JM3D-LLM apprend un encodeur de nuage de points 3D qui aligne l'espace d'intégration des nuages ​​de points avec l'espace d'intégration des images texte de SLIP. Il restitue des séquences d'images de nuages ​​de points et crée des arbres de texte hiérarchiques pendant la formation pour obtenir un alignement détaillé. Point Bind apprend également un encodeur 3D similaire et l'aligne avec ImageBind pour unifier l'espace d'intégration des images, du texte, de l'audio et des nuages ​​de points. Cela permet d'utiliser différentes têtes de tâches pour gérer différentes tâches telles que la récupération, la classification et la génération entre différents modes. Cependant, une limitation notable est que cette approche ne convient qu'aux scènes au niveau des objets à petite échelle, car le traitement de grandes scènes comportant des millions de points est coûteux en termes de calcul pour les encodeurs 3D. De plus, la plupart des encodeurs multimodaux pré-entraînés comme CLIP sont conçus pour les scènes à objet unique et ne conviennent pas aux scènes à grande échelle comportant plusieurs objets et détails locaux.

En revanche, les grandes scènes nécessitent une conception plus détaillée pour intégrer plusieurs modes. ConceptFusion crée une carte de fonctionnalités améliorée qui fusionne les informations globales et les détails locaux de chaque image composante d'une grande scène. Ceci est réalisé en utilisant des extracteurs de fonctionnalités pré-entraînés qui sont déjà alignés sur différentes modalités, notamment le texte et l'audio. Il utilise ensuite les méthodes SLAM traditionnelles pour mapper la carte des caractéristiques au nuage de points de la scène. MultiPLY utilise une représentation similaire à ConceptGraph. Il identifie tous les objets saillants de la scène, obtient l'intégration globale de chaque objet et construit enfin le graphe de la scène. La représentation résultante est une intégration de scène alignée avec l’espace d’intégration de Llama. L'intégration d'autres modalités, notamment l'audio, la température et l'haptique, peut également être cartographiée dans le même espace à l'aide de projections linéaires. Toutes les intégrations sont tokenisées et envoyées immédiatement à LLM. Par rapport aux méthodes capables de gérer des scènes à grande échelle, les méthodes capables de gérer de grandes scènes réduisent les coûts en s'appuyant sur des encodeurs pré-entraînés pour combler les écarts modaux au lieu d'apprendre de nouveaux encodeurs à partir de zéro.

LLM pour agents incorporés

Vous pouvez utiliser les capacités de planification, d'utilisation des outils et de prise de décision de LLM pour créer des agents concrets 3D. Ces capacités permettent à LLM de générer des décisions intelligentes, notamment la navigation dans des environnements 3D, l'interaction avec des objets et la sélection des outils appropriés pour effectuer des tâches spécifiques. Cette section décrit comment les agents concrets 3D effectuent des tâches de planification, de navigation et de manipulation.

  • Planification des tâches 3D : pour un agent spécifique, la « planification des tâches » fait référence à la capacité de générer des étapes pour effectuer une tâche spécifique, à partir d'une description de tâche et d'un environnement 3D. La planification de mission est souvent une condition préalable aux missions de navigation et de manœuvre, car la précision de la planification affecte directement l'exécution des missions ultérieures. LEO et LLM Planner utilisent LLM pour générer des plans étape par étape et s'ajuster dynamiquement en fonction de la conscience environnementale. LEO met l'accent sur la planification tenant compte de la scène basée sur la configuration actuelle de la scène, tandis que LLM Planner utilise GPT3 pour diviser la planification en sous-objectifs de haut niveau et actions de bas niveau, et replanifier lorsque l'agent rencontre des problèmes pendant l'exécution de la tâche. 3D-VLA combine la perception, le raisonnement et l'action 3D à travers des modèles du monde générés. Il se concentre sur l’amélioration des capacités de planification en tirant parti de ses modèles génératifs pour prédire les représentations d’états futurs telles que les images cibles et les nuages ​​de points.
  • Navigation 3D : la navigation 3D fait référence à la capacité d'un agent embarqué à se déplacer et à se positionner dans un environnement 3D, généralement basé sur une saisie visuelle et des instructions verbales. Chacune des méthodes décrites - LEO, Agent3D Zero, LLM Planner et NaviLLM - implémente la navigation 3D de manière différente. LEO traite des images 2D centrées sur le véhicule et des nuages ​​de points 3D centrés sur la cible ainsi que des instructions textuelles.
  • Manipulation d'objets 3D : dans le contexte des agents concrets 3D, la manipulation fait référence à leur capacité à interagir physiquement avec des objets, du déplacement d'objets à des séquences complexes comme l'assemblage de pièces ou l'ouverture de portes. L'idée principale utilisée pour permettre à LLM d'effectuer des tâches opérationnelles est de tokeniser les séquences d'actions. Pour que LLM génère une action spécifique, vous devez d'abord définir un jeton d'action, qui permet à LLM de générer ladite action en fonction de la tâche et du contexte de la scène 3D. Des plateformes comme CLIPort ou le module de planification de mouvements du bras robotique traduisent ensuite ces actions tokenisées en actions physiques effectuées par l'agent.

LLM pour la génération 3D

Traditionnellement, la modélisation 3D est un processus complexe et chronophage avec une barrière à l'entrée élevée, nécessitant une attention particulière à la géométrie, aux textures et à l'éclairage pour obtenir des résultats réalistes. Dans cette section, nous examinons de plus près l'intégration de LLM avec les technologies de génération 3D, montrant comment le langage fournit un moyen de générer des objets contextualisés dans une scène et fournit des solutions innovantes pour la création et la manipulation de contenu 3D.

  • Génération au niveau de l'objet : Shape GPT utilise un VQ-VAE 3D spécifique à la forme pour quantifier les formes 3D en marqueurs discrets de « mot de forme ». Cela permet l'intégration de données de forme dans l'entrée multimodale du modèle de langage T5, ainsi que du texte et des images. Cette représentation multimodale permet à T5 d'apprendre les interactions multimodales telles que la génération de texte en forme et l'édition/complétion de forme. GPT4Point utilise une approche à deux flux : aligner la géométrie du nuage de points sur le texte via un point QFormer, qui est ensuite introduit dans des chemins LLM et de diffusion couplés pour la compréhension du texte et la génération d'objets 3D haute fidélité cohérents avec la saisie de texte.
  • Génération à l'échelle de la scène : Holodeck et GALA-3D utilisent un pipeline en plusieurs étapes pour affiner progressivement une première mise en page de scène 3D approximative, du texte à un environnement 3D détaillé et réaliste. Holodeck utilise des modules spécialisés pour créer des dispositions de base, sélectionner des matériaux et incorporer des éléments tels que des portes et des fenêtres en fonction du raisonnement spatial et des recommandations de disposition/style de GPT-4. Il remplit ensuite la mise en page avec des éléments ob-averses qui correspondent à la description textuelle de GPT-4. L'optimiseur organise ces cibles en fonction des contraintes de relations spatiales obtenues à partir de GPT-4 pour encourager une disposition et une interaction réalistes des cibles.
  • Génération et manipulation procédurales : LLMR, 3D-GPT et SceneCraft adoptent une architecture modulaire avec des composants/agents spécialisés pour la création de mondes 3D interactifs et la génération de code à partir du langage naturel. LLMR se compose de différents composants utilisés pour générer du code pour créer des scènes dans Unity, comprendre les cibles et propriétés de scène existantes à modifier, identifier les fonctionnalités requises pour exécuter les instructions et évaluer la qualité finale du code. De même, 3D-GPT dispose de composants permettant d'interpréter les instructions et de déterminer la fonction de génération requise, d'enrichir la description avec des attributs de modélisation détaillés et de convertir la description riche en code Python pour l'API Blender. Collectivement, ces approches démontrent la décomposition des tâches et la spécialisation des composants LLM pour gérer l'interprétation des instructions, le mappage des fonctions et la génération de code robuste. Tâches 3D avec VLMS OpenScene adopte une approche sans tir pour prédire les caractéristiques denses des points de scène 3D co-intégrés dans un espace de fonctionnalités partagé avec les intégrations de pixels de texte et d'image de CLIP, permettant une formation à la reconnaissance de tâches et une requête de vocabulaire ouvert pour identifier les objets, les matériaux, les moyens, les activités et type de chambres. CLIP-FO3D suit une approche similaire, en modifiant CLIP pour extraire les caractéristiques de pixels denses des scènes 3D projetées dans des nuages ​​de points, puis en entraînant le modèle 3D par distillation pour transférer les connaissances de CLIP. L'abstraction sémantique extrait les graphiques d'association de CLIP en tant que représentations cibles abstraites à généraliser à de nouvelles sémantiques, vocabulaires et domaines. Open Fusion combine le modèle de langage visuel SEEM avec le mappage 3D TSDF, en tirant parti des intégrations basées sur les régions et des cartes de confiance pour la création et l'interrogation de scènes de vocabulaire ouvert en temps réel.
  • Génération 3D basée sur le texte

    Nous étudions ici les méthodes de génération de texte en 3D utilisant le VLM 2D et le guidage à l'aide d'un modèle de diffusion de texte à image à rendu différenciable. Les premiers travaux tels que DreamFields, CLIP-Mesh, CLIP-Forge et Text2Mesh ont exploré la génération 3D zéro tir guidée par CLIP.

    DreamFusion introduit le Score Distriction Sampling (SDS), où les paramètres d'une représentation 3D sont optimisés en rendant les rendus sous n'importe quel angle très réalistes, évalués par un modèle de diffusion 2D pré-entraîné. Il utilise un modèle Imagen texte-image pour optimiser la représentation NeRF via SDS. Magic3D propose un cadre en deux étapes : générer un modèle grossier avec un a priori de diffusion basse résolution et un maillage de hachage 3D clairsemé, puis optimiser le modèle de maillage 3D texturé à l'aide d'un moteur de rendu différenciable efficace et d'un modèle de diffusion latente haute résolution. Fantasia3D utilise une représentation hybride DMET et un BRDF spatialement variable pour démêler la géométrie et l'apparence. ProlificDreamer introduit la distillation fractionnée variationnelle (VSD), un cadre basé sur des particules qui traite les paramètres 3D comme des variables aléatoires pour augmenter la fidélité et la diversité. Dream3D exploite des a priori de forme 3D explicites et des modèles de diffusion texte-image pour améliorer la synthèse 3D guidée par texte. MVDream adopte un modèle de diffusion cohérent multi-vues qui peut être entraîné sur une petite quantité de données de prise de vue pour une génération personnalisée. Text2NeRF combine des représentations NeRF avec des modèles de diffusion texte-image pré-entraînés pour générer différentes scènes 3D intérieures/extérieures basées sur la langue. En plus de générer simultanément la géométrie et l'apparence, certaines recherches ont également exploré la possibilité de synthétiser des textures basées uniquement sur une géométrie donnée.

    Architectures de bout en bout pour la vision et le langage 3D

    Les modèles de transformateur pré-entraînés sur de grands ensembles de données de texte 3D apprennent de puissantes représentations conjointes qui connectent les modalités visuelles et linguistiques. 3D VisTA est un modèle Transformer qui utilise l'auto-attention pour modéliser conjointement des données visuelles et textuelles 3D afin d'obtenir une pré-formation efficace pour des objectifs tels que la modélisation de langage masqué/cible et la correspondance de texte de scène. UniT3D utilise une méthode Transformer unifiée, combinée à la base de détection 3D PointGroup, à l'encodeur de texte BERT et au module de fusion multimodale, pour pré-entraîner conjointement les données de langage 3D synthétisées. SpatialVLM adopte une stratégie différente pour entraîner conjointement le VLM sur un vaste ensemble de données synthétiques de raisonnement spatial 3D, améliorant ainsi les performances des tâches de réponse aux questions visuelles spatiales 3D et prenant en charge des applications telles que le raisonnement en chaîne de pensée des robots. Multi CLIP pré-entraîne un encodeur de scène 3D pour aligner les caractéristiques de la scène avec les intégrations de texte et d'images de CLIP, dans le but de transférer les connaissances de CLIP pour améliorer la compréhension 3D pour des tâches telles que la réponse visuelle aux questions.

    Ensembles de données

    牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

    牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述

    Défis et opportunités futures

    Malgré les progrès dans l'intégration du LLM aux données 3D, il existe encore des défis en matière de représentation des données, d'efficacité informatique et de références qui nécessitent une solution innovante.

    Le choix de la représentation a un fort impact sur les performances des modèles de langage visuel 3D. Actuellement, les nuages ​​de points sont principalement utilisés pour représenter les environnements intérieurs (par exemple, les sommets d'un maillage) et extérieurs (par exemple, les nuages ​​de points lidar) en raison de leur simplicité et de leur compatibilité avec les réseaux neuronaux. Cependant, ils ont du mal à capturer les détails cruciaux pour des modèles spatiaux précis et riches. Le développement de nouvelles représentations de scènes 3D qui comblent plus efficacement le fossé entre les informations spatiales et le langage peut ouvrir de nouveaux niveaux de compréhension et d’interaction. En trouvant des moyens innovants de coder des informations linguistiques et sémantiques dans des représentations 3D, par exemple en utilisant des intégrations linguistiques et sémantiques extraites, nous pouvons contribuer à combler le fossé entre ces deux modalités.

    Le traitement des données 3D et les exigences informatiques du LLM posent des défis importants. À mesure que la complexité des environnements 3D et la taille des modèles de langage augmentent, l’évolutivité reste une préoccupation. Les progrès des architectures LLM conçues pour l’adaptabilité et l’efficacité informatique peuvent élargir considérablement la base de leur amélioration et sont essentielles pour évaluer et améliorer de manière globale les capacités des LLM multimodaux dans les tâches 3D. La portée limitée des benchmarks actuels, notamment en matière de raisonnement tridimensionnel, entrave l'évaluation des compétences de raisonnement spatial et le développement de systèmes de prise de décision/d'interaction tridimensionnels. De plus, les métriques actuellement utilisées ne capturent pas pleinement les capacités du LLM dans les environnements 3D. Il est crucial de développer des métriques spécifiques aux tâches pour mesurer plus précisément les performances des différentes tâches 3D. Enfin, la granularité des benchmarks actuels de compréhension des scènes est trop simple, ce qui limite la compréhension approfondie des environnements 3D complexes. Un ensemble de tâches plus diversifiées est nécessaire.

    L'amélioration des benchmarks est essentielle pour évaluer et améliorer pleinement les capacités du LLM multimodal dans les tâches 3D. La portée limitée des benchmarks actuels, notamment en matière de raisonnement tridimensionnel, entrave l'évaluation des compétences de raisonnement spatial et le développement de systèmes de prise de décision/d'interaction tridimensionnels. De plus, les métriques actuellement utilisées ne capturent pas pleinement les fonctionnalités de LLM dans les environnements 3D. Il est crucial de développer des métriques spécifiques aux tâches pour mesurer plus précisément les performances des différentes tâches 3D. Enfin, la granularité des benchmarks actuels de compréhension des scènes est trop simple, ce qui limite la compréhension approfondie des environnements 3D complexes. Un ensemble de tâches plus diversifiées est nécessaire.

    Les implications en matière de sécurité et d'éthique doivent être prises en compte lors de l'utilisation du LLM pour la compréhension 3D. LLM peut halluciner et produire des informations inexactes et dangereuses, conduisant à des décisions incorrectes dans les applications 3D critiques. De plus, les LLM échouent souvent de manière imprévisible et difficile à expliquer. Ils peuvent également hériter des préjugés sociaux présents dans les données d’entraînement, pénalisant certains groupes lorsqu’ils font des prédictions dans des scènes 3D réelles. Il est crucial que les LLM soient utilisés avec prudence dans les environnements 3D, en utilisant des stratégies pour créer des ensembles de données plus inclusifs, des cadres d'évaluation robustes pour la détection et la correction des biais, et des mécanismes pour minimiser les hallucinations afin de garantir la responsabilité et l'équité des résultats.

    Conclusion

    Cet article propose une exploration approfondie de l'intégration des données LLM et 3D. Cette enquête examine systématiquement les méthodes, les applications et les capacités émergentes du LLM en matière de traitement, de compréhension et de génération de données 3D, soulignant le potentiel de transformation du LLM dans une gamme de tâches 3D. De l’amélioration de la compréhension spatiale et de l’interaction dans des environnements tridimensionnels à l’avancement des capacités des systèmes d’intelligence artificielle embarqués, LLM joue un rôle clé dans l’avancement du domaine.

    Les principales conclusions incluent l'identification des avantages uniques du LLM, tels que l'apprentissage sans tir, le raisonnement avancé et la connaissance approfondie du monde, qui aident à combler le fossé entre les informations textuelles et l'interprétation spatiale. Cet article démontre l'intégration LLM avec des données 3D pour un large éventail de tâches. L’exploration d’autres méthodes de langage visuel 3D avec LLM révèle de riches perspectives de recherche visant à approfondir notre compréhension du monde 3D.

    En outre, l'enquête met en évidence des défis importants tels que la représentation des données, l'évolutivité des modèles et l'efficacité des calculs, démontrant qu'il est essentiel de surmonter ces obstacles pour réaliser pleinement le potentiel du LLM dans les applications 3D. En résumé, cette enquête fournit non seulement un aperçu complet de l’état actuel des tâches 3D utilisant le LLM, mais jette également les bases des futures orientations de recherche. Il appelle à une collaboration pour explorer et étendre les capacités de LLM en matière de compréhension et d'interaction avec des mondes 3D complexes, ouvrant ainsi la voie à de nouvelles avancées dans le domaine de l'intelligence spatiale.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal