Mehr als 80 Artikel zum Verständnis des Forschungsfortschritts von „Robot + 3D“.
Vor einiger Zeit berichteten mehrere Medien, dass World Labs, ein Startup-Unternehmen, das vom berühmten KI-Wissenschaftler und Stanford-Universitätsprofessor Li Feifei gegründet wurde, in nur drei Monaten zwei Finanzierungsrunden abgeschlossen hatte Finanzierung Mit rund 100 Millionen US-Dollar wurde das Unternehmen auf über 1 Milliarde US-Dollar geschätzt, was es zu einem neuen Einhorn macht. Die Entwicklungsrichtung von World Labs konzentriert sich auf „räumliche Intelligenz“, d. Li Feifei glaubt, dass „räumliche Intelligenz“ ein zentraler Bestandteil der Entwicklung der KI ist. Ihr Team trainiert im Labor der Stanford University Computer und Roboter, um Aktionen in der dreidimensionalen Welt zu ermöglichen ein Roboterarm, der Türen öffnet und Dinge gemäß mündlicher Anweisungen erledigt. Sandwiches und andere Aufgaben. (Einzelheiten finden Sie unter „Li Feifei erklärt die unternehmerische Ausrichtung der „räumlichen Intelligenz“, die es der KI ermöglicht, die Welt wirklich zu verstehen“
Um das Konzept der „räumlichen Intelligenz“ zu erklären, erläutert Li Feifei zeigte ein Bild einer Katze, die ihre Pfoten ausstreckte, ein Bild, auf dem ein Glas an die Tischkante geschoben wurde. Im Bruchteil einer Sekunde, sagt sie, kann das menschliche Gehirn „die Geometrie dieses Glases, seine Position im dreidimensionalen Raum, seine Beziehung zum Tisch, zur Katze und all diesen anderen Dingen“ beurteilen und dann vorhersagen, was passieren wird Ergreifen Sie Maßnahmen, um das Problem zu beheben. Tatsächlich achten neben Li Feifei mittlerweile auch viele Forschungsteams auf die Richtung 3D-Vision + Roboter. Diese Teams glauben, dass viele der Einschränkungen der aktuellen KI auf Modelle zurückzuführen sind, denen ein tiefes Verständnis der 3D-Welt fehlt. Wenn wir dieses Rätsel lösen wollen, müssen wir mehr Forschungsenergie in Richtung 3D-Vision investieren. Darüber hinaus ermöglicht 3D-Vision eine Tiefenwahrnehmung und ein räumliches Verständnis der Umgebung, was für die Navigation, den Betrieb und die Entscheidungsfindung von Robotern in einer komplexen dreidimensionalen Welt von entscheidender Bedeutung ist. Gibt es also systematische Forschungsinformationen, auf die sich Forscher in dieser Richtung beziehen können? Diese Seite hat kürzlich eines gefunden: Projektlink: https://github.com/zubair-irshad/Awesome-Robotics-3DDieses heißt „Awesome-Robotics-3D“ Das GitHub-Repository hat insgesamt mehr als 80 Artikel in der Richtung „3D Vision + Robotics“ gesammelt. Die meisten Artikel enthalten entsprechende Artikel, Projekte und Code-Links. Diese Arbeiten können in die folgenden Themen unterteilt werden:
- Vorschulung
- VLM und LLM
- Darstellung
- Simulation, Daten Set und Benchmarks
Diese Beiträge umfassen arXiv-Preprints sowie Beiträge von Top-Robotikkonferenzen wie RSS, ICRA, IROS und CORL sowie Top-Konferenzbeiträge in den Bereichen Computer Vision und maschinelles Lernen wie CVPR, ICLR und ICML Sie sind sehr wertvoll.La liste des papiers pour chaque partie est la suivante : 5 De plus, l'auteur fournit également deux articles de synthèse qui peuvent être référencés : Article 1 : Quand les LLM entrent dans le monde 3D : une enquête et une méta-analyse de tâches 3D via de grands modèles de langage multimodaux
Lien de l'article : https://arxiv.org/pdf/2405.10255
-
- Introduction du papier : Cet article fournit un aperçu complet des méthodologies qui permettent au LLM de traiter, de comprendre et de générer des données 3D, et met en évidence les avantages uniques du LLM tels que l'apprentissage en contexte, étape par étape. raisonnement, capacités de vocabulaire ouvert et vaste connaissance du monde, ces avantages devraient faire progresser considérablement la compréhension spatiale et l’interaction dans les systèmes d’intelligence artificielle incarnée. La recherche couvre diverses méthodes de représentation de données 3D, depuis les nuages de points jusqu'aux champs de rayonnement neuronal (NeRF), et examine leur intégration avec LLM pour la compréhension des scènes 3D, la génération de descriptions, la réponse aux questions et le dialogue, ainsi que les agents basés sur LLM pour des tâches spatiales telles que raisonnement, planification et navigation. En outre, l'article passe brièvement en revue d'autres méthodes d'intégration de la 3D et du langage. À travers une méta-analyse de ces études, l’article révèle les progrès significatifs réalisés et souligne la nécessité de développer de nouvelles méthodes pour exploiter pleinement le potentiel du 3D-LLM.
Pour soutenir cette enquête, l'auteur a créé une page de projet pour organiser et répertorier les articles liés au sujet : https://github.com/ActiveVisionLab/Awesome-LLM-3D
Paper 2 : Une étude complète de la manipulation de robots basée sur la vision 3DLien papier : https://ieeexplore.ieee.org/document/9541299
- Introduction papier : Cet article est complet. les progrès de la vision 3D dans le domaine du contrôle des robots sont analysés, notamment en imitant l'intelligence humaine et en donnant aux robots des capacités de travail plus flexibles. L'article discute du système de vision 2D sur lequel repose habituellement le contrôle robot traditionnel et de ses limites, et souligne les défis rencontrés par les systèmes de vision 3D dans le monde ouvert, tels que la reconnaissance générale d'objets dans des arrière-plans encombrés, l'estimation de l'occlusion et la flexibilité de type humain. contrôle. L'article couvre des technologies clés telles que l'acquisition et la représentation de données 3D, l'étalonnage de la vision du robot, la détection/reconnaissance d'objets 3D, l'estimation de pose à 6 degrés de liberté, l'estimation de préhension et la planification de mouvements. De plus, certains ensembles de données publiques, critères d'évaluation, analyses comparatives et défis actuels sont présentés. Enfin, l'article explore les domaines d'application connexes du contrôle des robots et discute des orientations de recherche futures et des questions ouvertes.
Les lecteurs intéressés peuvent cliquer sur le lien du projet pour commencer à apprendre.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!