Inhaltsverzeichnis
Alles – 3D!
Über den Autor
Heim Technologie-Peripheriegeräte KI Das chinesische NUS-Team veröffentlicht das neueste Modell: 3D-Rekonstruktion in Einzelansicht, schnell und genau!

Das chinesische NUS-Team veröffentlicht das neueste Modell: 3D-Rekonstruktion in Einzelansicht, schnell und genau!

Apr 26, 2023 pm 05:37 PM
3d 开发

Die 3D-Rekonstruktion von 2D-Bildern war schon immer ein Highlight im Lebenslaufbereich.

Um dieses Problem zu lösen, wurden verschiedene Modelle entwickelt.

Heute veröffentlichten Wissenschaftler der National University of Singapore gemeinsam einen Artikel und entwickelten ein neues Framework, Anything-3D, um dieses seit langem bestehende Problem zu lösen.

Das chinesische NUS-Team veröffentlicht das neueste Modell: 3D-Rekonstruktion in Einzelansicht, schnell und genau!

Papieradresse: https://arxiv.org/pdf/2304.10261.pdf

Mit Hilfe des Meta-Modells „Alles teilen“ lässt Anything-3D jedes geteilte Objekt direkt entstehen lebendig .

Das chinesische NUS-Team veröffentlicht das neueste Modell: 3D-Rekonstruktion in Einzelansicht, schnell und genau!

Darüber hinaus können Sie mit dem Zero-1-to-3-Modell Corgis aus verschiedenen Blickwinkeln betrachten.

Das chinesische NUS-Team veröffentlicht das neueste Modell: 3D-Rekonstruktion in Einzelansicht, schnell und genau!

Sie können sogar eine 3D-Rekonstruktion von Charakteren durchführen.

Das chinesische NUS-Team veröffentlicht das neueste Modell: 3D-Rekonstruktion in Einzelansicht, schnell und genau!

Das chinesische NUS-Team veröffentlicht das neueste Modell: 3D-Rekonstruktion in Einzelansicht, schnell und genau!

Man kann sagen, dass dies ein echter Durchbruch ist.

Alles – 3D!

In der realen Welt sind verschiedene Objekte und Umgebungen vielfältig und komplex. Daher ist die 3D-Rekonstruktion aus einem einzelnen RGB-Bild ohne Einschränkungen mit vielen Schwierigkeiten verbunden.

Hier kombinierten Forscher der National University of Singapore eine Reihe visueller Sprachmodelle und SAM-Objektsegmentierungsmodelle (Segment-Anything), um ein multifunktionales und zuverlässiges System zu generieren – Anything-3D.

Der Zweck besteht darin, die Aufgabe der 3D-Rekonstruktion aus einer einzigen Perspektive abzuschließen.

Sie verwenden das BLIP-Modell, um Texturbeschreibungen zu generieren, verwenden das SAM-Modell, um Objekte im Bild zu extrahieren, und verwenden dann das Text → Bilddiffusionsmodell Stable Diffusion, um die Objekte in Nerf (neuronales Strahlungsfeld) zu platzieren.

In nachfolgenden Experimenten demonstrierte Anything-3D seine leistungsstarken dreidimensionalen Rekonstruktionsfähigkeiten. Es ist nicht nur genau, sondern auch auf ein breites Anwendungsspektrum anwendbar.

Anything-3D hat offensichtliche Auswirkungen auf die Lösung der Einschränkungen bestehender Methoden. Die Vorteile dieses neuen Rahmenwerks demonstrierten die Forscher durch Tests und Auswertungen verschiedener Datensätze.

Das chinesische NUS-Team veröffentlicht das neueste Modell: 3D-Rekonstruktion in Einzelansicht, schnell und genau!

Auf dem Bild oben sehen wir den „Corgi, der mit ausgestreckter Zunge Tausende von Kilometern rennt“, „die silberflügelige Göttinnenstatue, die sich einem Luxusauto hingibt“ und die „braune Kuh auf dem Feld“. trägt ein blaues Seil auf dem Kopf.

Dies ist eine vorläufige Demonstration, dass das Anything-3D-Framework in jeder Umgebung aufgenommene Einzelansichtsbilder geschickt in 3D-Formen wiederherstellen und Texturen erzeugen kann.

Dieses neue Framework liefert trotz großer Änderungen in der Kameraperspektive und den Objekteigenschaften immer hochpräzise Ergebnisse.

Sie müssen wissen, dass die Rekonstruktion von 3D-Objekten aus 2D-Bildern das Kernthema im Bereich Computer Vision ist und einen großen Einfluss auf Bereiche wie Robotik, autonomes Fahren, Augmented Reality, Virtual Reality und 3D-Druck hat.

Obwohl in den letzten Jahren einige gute Fortschritte erzielt wurden, ist die Aufgabe der Einzelbild-Objektrekonstruktion in einer unstrukturierten Umgebung immer noch ein sehr attraktives und dringend zu lösendes Problem.

Derzeit haben Forscher die Aufgabe, aus einem einzigen zweidimensionalen Bild eine dreidimensionale Darstellung eines oder mehrerer Objekte zu generieren. Die Darstellungsmethoden umfassen Punktwolken, Gitter oder Volumendarstellungen.

Dieses Problem ist jedoch grundsätzlich nicht wahr.

Aufgrund der inhärenten Mehrdeutigkeit, die durch die zweidimensionale Projektion entsteht, ist es unmöglich, die dreidimensionale Struktur eines Objekts eindeutig zu bestimmen.

Gepaart mit den enormen Unterschieden in Form, Größe, Textur und Aussehen ist die Rekonstruktion von Objekten in ihrer natürlichen Umgebung sehr komplex. Darüber hinaus sind Objekte in realen Bildern häufig verdeckt, was eine genaue Rekonstruktion verdeckter Teile erschwert.

Gleichzeitig können auch Variablen wie Beleuchtung und Schatten das Erscheinungsbild von Objekten stark beeinflussen, und auch Unterschiede in Winkeln und Abständen können zu erheblichen Veränderungen in 2D-Projektionen führen.

Genug der Schwierigkeiten, es ist Zeit für Anything-3D.

In der Arbeit stellten die Forscher dieses bahnbrechende System-Framework ausführlich vor, das das visuelle Sprachmodell und das Objektsegmentierungsmodell integriert, um 2D-Objekte einfach in 3D umzuwandeln.

Auf diese Weise steht ein System mit leistungsstarken Funktionen und starker Anpassungsfähigkeit zur Verfügung. Einzelansichtsrekonstruktion? Einfach.

Die Forscher sagen, dass es durch die Kombination der beiden Modelle möglich ist, die dreidimensionale Textur und Geometrie eines bestimmten Bildes abzurufen und zu bestimmen.

Anything-3D verwendet das BLIP-Modell (Bootstrapping Language-Image Model), um die Textbeschreibung des Bildes vorab zu trainieren, und verwendet dann das SAM-Modell, um den Verbreitungsbereich des Objekts zu identifizieren.

Als nächstes verwenden Sie die segmentierten Objekte und Textbeschreibungen, um die 3D-Rekonstruktionsaufgabe durchzuführen.

Mit anderen Worten: In diesem Artikel wird ein vorab trainiertes 2D-Text-→Bilddiffusionsmodell verwendet, um eine 3D-Synthese von Bildern durchzuführen. Darüber hinaus nutzten die Forscher die fraktionierte Destillation, um einen Nerf speziell für Bilder zu trainieren.

Das chinesische NUS-Team veröffentlicht das neueste Modell: 3D-Rekonstruktion in Einzelansicht, schnell und genau!

Das obige Bild zeigt den gesamten Prozess der Generierung von 3D-Bildern. Die obere linke Ecke ist das 2D-Originalbild. Es durchläuft zunächst SAM, um den Corgi zu segmentieren, durchläuft dann BLIP, um eine Textbeschreibung zu generieren, und verwendet dann eine fraktionierte Destillation, um einen Nerf zu erstellen.

Durch strenge Experimente mit verschiedenen Datensätzen demonstrierten die Forscher die Wirksamkeit und Anpassungsfähigkeit dieses Ansatzes und übertrafen gleichzeitig bestehende Methoden in Bezug auf Genauigkeit, Robustheit und Generalisierungsfähigkeiten.

Die Forscher führten außerdem eine umfassende und eingehende Analyse bestehender Herausforderungen bei der 3D-Objektrekonstruktion in natürlichen Umgebungen durch und untersuchten, wie das neue Framework solche Probleme lösen kann.

Letztendlich kann das neue Framework durch die Integration der Null-Distanz-Sicht- und Sprachverständnisfunktionen in das Basismodell Objekte aus verschiedenen realen Bildern rekonstruieren und genaue, komplexe und weithin anwendbare 3D-Darstellungen generieren.

Man kann sagen, dass Anything-3D ein großer Durchbruch auf dem Gebiet der 3D-Objektrekonstruktion ist.实 Nachfolgend finden Sie weitere Beispiele:

Das chinesische NUS-Team veröffentlicht das neueste Modell: 3D-Rekonstruktion in Einzelansicht, schnell und genau! cooles schwarzes Interieur von Xiaobai Porsche, leuchtend orangefarbener Baggerkran, grüner Hut, kleine gelbe Gummiente

Das chinesische NUS-Team veröffentlicht das neueste Modell: 3D-Rekonstruktion in Einzelansicht, schnell und genau! Ära Tränen verblasste Kanone, Schweinchen süßes Mini-Sparschwein , zinnoberroter vierbeiniger Hochhocker

Dieses neue Framework kann interaktiv Regionen in Einzelansichtsbildern identifizieren und 2D-Objekte mit optimierten Texteinbettungen darstellen. Letztendlich wird ein 3D-fähiges fraktioniertes Destillationsmodell verwendet, um effizient hochwertige 3D-Objekte zu generieren.

Zusammenfassend zeigt Anything-3D das Potenzial der Rekonstruktion natürlicher 3D-Objekte aus Einzelansichtsbildern.

Forscher sagen, dass die Qualität der 3D-Rekonstruktion des neuen Frameworks noch perfekter sein kann, und Forscher arbeiten ständig hart daran, die Qualität der Generierung zu verbessern.

Darüber hinaus gaben die Forscher an, dass quantitative Auswertungen von 3D-Datensätzen wie die Synthese neuer Ansichten und die Fehlerrekonstruktion derzeit nicht bereitgestellt werden, diese jedoch in zukünftige Arbeitsiterationen einbezogen werden.

Gleichzeitig besteht das ultimative Ziel der Forscher darin, dieses Framework zu erweitern, um es an praktischere Situationen anzupassen, einschließlich der Objektwiederherstellung unter spärlichen Ansichten.

Über den Autor

Wang ist derzeit Tenure-Track-Assistenzprofessor am ECE-Department der National University of Singapore (NUS).

Bevor er an die National University of Singapore kam, war er Assistenzprofessor in der CS-Abteilung des Stevens Institute of Technology. Bevor ich zu Stevens kam, war ich Postdoc in der Bilderzeugungsgruppe von Professor Thomas Huang am Beckman Institute der University of Illinois in Urbana-Champaign.

Wang promovierte am Computer Vision Laboratory der Ecole Polytechnique Fédérale de Lausanne (EPFL) unter der Leitung von Professor Pascal Fua und erhielt einen erstklassigen Bachelor-Abschluss mit Auszeichnung vom Department of Computer Science des Hong Kong Polytechnic Universität im Jahr 2010.

Das chinesische NUS-Team veröffentlicht das neueste Modell: 3D-Rekonstruktion in Einzelansicht, schnell und genau!

Das obige ist der detaillierte Inhalt vonDas chinesische NUS-Team veröffentlicht das neueste Modell: 3D-Rekonstruktion in Einzelansicht, schnell und genau!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

CLIP-BEVFormer: Überwacht explizit die BEVFormer-Struktur, um die Leistung der Long-Tail-Erkennung zu verbessern CLIP-BEVFormer: Überwacht explizit die BEVFormer-Struktur, um die Leistung der Long-Tail-Erkennung zu verbessern Mar 26, 2024 pm 12:41 PM

Oben geschrieben und das persönliche Verständnis des Autors: Derzeit spielt das Wahrnehmungsmodul im gesamten autonomen Fahrsystem eine entscheidende Rolle Das Steuermodul im autonomen Fahrsystem trifft zeitnahe und korrekte Urteile und Verhaltensentscheidungen. Derzeit sind Autos mit autonomen Fahrfunktionen in der Regel mit einer Vielzahl von Dateninformationssensoren ausgestattet, darunter Rundumsichtkamerasensoren, Lidar-Sensoren und Millimeterwellenradarsensoren, um Informationen in verschiedenen Modalitäten zu sammeln und so genaue Wahrnehmungsaufgaben zu erfüllen. Der auf reinem Sehen basierende BEV-Wahrnehmungsalgorithmus wird von der Industrie aufgrund seiner geringen Hardwarekosten und einfachen Bereitstellung bevorzugt, und seine Ausgabeergebnisse können problemlos auf verschiedene nachgelagerte Aufgaben angewendet werden.

Vier empfohlene KI-gestützte Programmiertools Vier empfohlene KI-gestützte Programmiertools Apr 22, 2024 pm 05:34 PM

Dieses KI-gestützte Programmiertool hat in dieser Phase der schnellen KI-Entwicklung eine große Anzahl nützlicher KI-gestützter Programmiertools zu Tage gefördert. KI-gestützte Programmiertools können die Entwicklungseffizienz verbessern, die Codequalität verbessern und Fehlerraten reduzieren. Sie sind wichtige Helfer im modernen Softwareentwicklungsprozess. Heute wird Dayao Ihnen 4 KI-gestützte Programmiertools vorstellen (und alle unterstützen die C#-Sprache). https://github.com/YSGStudyHards/DotNetGuide1.GitHubCopilotGitHubCopilot ist ein KI-Codierungsassistent, der Ihnen hilft, Code schneller und mit weniger Aufwand zu schreiben, sodass Sie sich mehr auf Problemlösung und Zusammenarbeit konzentrieren können. Git

Erfahren Sie, wie Sie mobile Anwendungen mit der Go-Sprache entwickeln Erfahren Sie, wie Sie mobile Anwendungen mit der Go-Sprache entwickeln Mar 28, 2024 pm 10:00 PM

Tutorial zur Entwicklung mobiler Anwendungen in der Go-Sprache Da der Markt für mobile Anwendungen weiterhin boomt, beginnen immer mehr Entwickler damit, sich mit der Verwendung der Go-Sprache für die Entwicklung mobiler Anwendungen zu befassen. Als einfache und effiziente Programmiersprache hat die Go-Sprache auch großes Potenzial für die Entwicklung mobiler Anwendungen gezeigt. In diesem Artikel wird detailliert beschrieben, wie die Go-Sprache zum Entwickeln mobiler Anwendungen verwendet wird, und es werden spezifische Codebeispiele angehängt, um den Lesern den schnellen Einstieg und die Entwicklung eigener mobiler Anwendungen zu erleichtern. 1. Vorbereitung Bevor wir beginnen, müssen wir die Entwicklungsumgebung und die Tools vorbereiten. Kopf

Welcher KI-Programmierer ist der beste? Entdecken Sie das Potenzial von Devin, Tongyi Lingma und SWE-Agent Welcher KI-Programmierer ist der beste? Entdecken Sie das Potenzial von Devin, Tongyi Lingma und SWE-Agent Apr 07, 2024 am 09:10 AM

Am 3. März 2022, weniger als einen Monat nach der Geburt von Devin, dem weltweit ersten KI-Programmierer, entwickelte das NLP-Team der Princeton University einen Open-Source-KI-Programmierer-SWE-Agenten. Es nutzt das GPT-4-Modell, um Probleme in GitHub-Repositorys automatisch zu lösen. Die Leistung des SWE-Agenten auf dem SWE-Bench-Testsatz ist ähnlich wie die von Devin, er benötigt durchschnittlich 93 Sekunden und löst 12,29 % der Probleme. Durch die Interaktion mit einem dedizierten Terminal kann der SWE-Agent Dateiinhalte öffnen und durchsuchen, die automatische Syntaxprüfung verwenden, bestimmte Zeilen bearbeiten sowie Tests schreiben und ausführen. (Hinweis: Der obige Inhalt stellt eine geringfügige Anpassung des Originalinhalts dar, die Schlüsselinformationen im Originaltext bleiben jedoch erhalten und überschreiten nicht die angegebene Wortbeschränkung.) SWE-A

Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24) Das Neueste von der Universität Oxford! Mickey: 2D-Bildabgleich in 3D SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Projektlink vorne geschrieben: https://nianticlabs.github.io/mickey/ Anhand zweier Bilder kann die Kameraposition zwischen ihnen geschätzt werden, indem die Korrespondenz zwischen den Bildern hergestellt wird. Normalerweise handelt es sich bei diesen Entsprechungen um 2D-zu-2D-Entsprechungen, und unsere geschätzten Posen sind maßstabsunabhängig. Einige Anwendungen, wie z. B. Instant Augmented Reality jederzeit und überall, erfordern eine Posenschätzung von Skalenmetriken und sind daher auf externe Tiefenschätzer angewiesen, um die Skalierung wiederherzustellen. In diesem Artikel wird MicKey vorgeschlagen, ein Keypoint-Matching-Prozess, mit dem metrische Korrespondenzen im 3D-Kameraraum vorhergesagt werden können. Durch das Erlernen des 3D-Koordinatenabgleichs zwischen Bildern können wir auf metrische Relativwerte schließen

Zusammenfassung der fünf beliebtesten Go-Sprachbibliotheken: wesentliche Tools für die Entwicklung Zusammenfassung der fünf beliebtesten Go-Sprachbibliotheken: wesentliche Tools für die Entwicklung Feb 22, 2024 pm 02:33 PM

Zusammenfassung der fünf beliebtesten Go-Sprachbibliotheken: wesentliche Werkzeuge für die Entwicklung, die spezifische Codebeispiele erfordern Seit ihrer Geburt hat die Go-Sprache große Aufmerksamkeit und Anwendung gefunden. Als aufstrebende effiziente und prägnante Programmiersprache ist die schnelle Entwicklung von Go untrennbar mit der Unterstützung umfangreicher Open-Source-Bibliotheken verbunden. In diesem Artikel werden fünf beliebte Go-Sprachbibliotheken vorgestellt. Diese Bibliotheken spielen eine wichtige Rolle bei der Go-Entwicklung und bieten Entwicklern leistungsstarke Funktionen und praktische Entwicklungserfahrung. Um die Verwendung und Funktion dieser Bibliotheken besser zu verstehen, werden wir sie gleichzeitig anhand konkreter Codebeispiele erläutern.

LLM ist fertig! OmniDrive: Integration von 3D-Wahrnehmung und Argumentationsplanung (NVIDIAs neueste Version) LLM ist fertig! OmniDrive: Integration von 3D-Wahrnehmung und Argumentationsplanung (NVIDIAs neueste Version) May 09, 2024 pm 04:55 PM

Oben geschrieben und persönliches Verständnis des Autors: Dieses Papier widmet sich der Lösung der wichtigsten Herausforderungen aktueller multimodaler großer Sprachmodelle (MLLMs) in autonomen Fahranwendungen, nämlich dem Problem der Erweiterung von MLLMs vom 2D-Verständnis auf den 3D-Raum. Diese Erweiterung ist besonders wichtig, da autonome Fahrzeuge (AVs) genaue Entscheidungen über 3D-Umgebungen treffen müssen. Das räumliche 3D-Verständnis ist für AVs von entscheidender Bedeutung, da es sich direkt auf die Fähigkeit des Fahrzeugs auswirkt, fundierte Entscheidungen zu treffen, zukünftige Zustände vorherzusagen und sicher mit der Umgebung zu interagieren. Aktuelle multimodale große Sprachmodelle (wie LLaVA-1.5) können häufig nur Bildeingaben mit niedrigerer Auflösung verarbeiten (z. B. aufgrund von Auflösungsbeschränkungen des visuellen Encoders und Einschränkungen der LLM-Sequenzlänge). Allerdings erfordern autonome Fahranwendungen

Die Registrierung von Punktwolken ist für die 3D-Vision unumgänglich! Verstehen Sie alle gängigen Lösungen und Herausforderungen in einem Artikel Die Registrierung von Punktwolken ist für die 3D-Vision unumgänglich! Verstehen Sie alle gängigen Lösungen und Herausforderungen in einem Artikel Apr 02, 2024 am 11:31 AM

Es wird erwartet, dass die Punktwolke als Sammlung von Punkten eine Veränderung bei der Erfassung und Generierung dreidimensionaler (3D) Oberflächeninformationen von Objekten durch 3D-Rekonstruktion, industrielle Inspektion und Roboterbetrieb bewirken wird. Der anspruchsvollste, aber wesentlichste Prozess ist die Punktwolkenregistrierung, d. h. das Erhalten einer räumlichen Transformation, die zwei in zwei verschiedenen Koordinaten erhaltene Punktwolken ausrichtet und abgleicht. In dieser Rezension werden ein Überblick und die Grundprinzipien der Punktwolkenregistrierung vorgestellt, verschiedene Methoden systematisch klassifiziert und verglichen und die technischen Probleme bei der Punktwolkenregistrierung gelöst. Dabei wird versucht, akademischen Forschern außerhalb des Fachgebiets und Ingenieuren Orientierung zu geben und Diskussionen über eine einheitliche Vision zu erleichtern zur Punktwolkenregistrierung. Die allgemeine Methode zur Punktwolkenerfassung ist in aktive und passive Methoden unterteilt. Die vom Sensor aktiv erfasste Punktwolke ist die aktive Methode, und die Punktwolke wird später rekonstruiert.

See all articles