Abbildung 1. Röntgenserialisierte 3D-Darstellung
National University of Singapore (NUS) Dr. Hu Run leitete ein Forschungsteam, um ein neues 3D-Röntgenbild zu veröffentlichen, das sequenziert werden kann Es kann die Oberflächenform und Textur von Objekten aus der Perspektive der Kamera genau wiedergeben. Es kann die Videogenerierungsfunktion vollständig nutzen, um Modellvorteile zu generieren und die internen und externen 3D-Strukturen zu generieren Objekt gleichzeitig.
In diesem Artikel werden die Prinzipien, Vorteile und breiten Anwendungsaussichten der Röntgentechnologie ausführlich erläutert.
Abbildung 2. Vergleich mit renderbasierten 3D-Modellgenerierungsmethoden.
Technische Innovation: 3D-Darstellung der Innen- und Außenflächen des Objekts
In jeder Strahlrichtung werden L dreidimensionale Attributdaten, einschließlich Tiefe, Normalenvektor, Farbe usw., einzeln am Schnittpunkt mit der Objektoberfläche aufgezeichnet und dann werden diese Daten in der Form L×H×B organisiert Um die Erstellung eines beliebigen 3D-Modells zu realisieren, ist dies die vom Team vorgeschlagene Röntgendarstellungsmethode.
Es ist erwähnenswert, dass die Darstellung mit dem Videoformat übereinstimmt, sodass das generative Videomodell zur Erstellung generativer 3D-Modelle verwendet werden kann. Der spezifische Prozess ist wie folgt.
1. Kodierungsprozess: Konvertieren Sie das 3D-Modell in ), um die Eigenschaften
aller Oberflächen aufzuzeichnen, die jeder Kamerastrahl mit dem Objekt schneidet, einschließlich der Tiefe
, des Normalenvektors
und der Farbe
usw. der Oberfläche. Zur Vereinfachung der Anzeige wird dies durch dargestellt, ob an der Stelle eine Oberfläche vorhanden ist.
Dann kann durch Erhalten aller Kamerastrahlen und anderer Schnittflächenpunkte ein vollständiger Röntgen-3D-Ausdruck erhalten werden, wie im folgenden Ausdruck und in Abbildung 3 dargestellt.
Konvertieren Sie ein beliebiges 3D-Modell durch den Kodierungsprozess in Röntgen. Es ist das gleiche wie das Videoformat und hat eine andere Anzahl von Bildern. Normalerweise reicht die Anzahl der Bilder L=8 aus, um ein 3D-Objekt darzustellen. 2. Dekodierungsprozess: Röntgenbild in 3D-Modell Generierung eines Röntgenmodells. Der spezifische Prozess umfasst zwei Prozesse: den Punktwolken-Generierungsprozess und den Punktwolken-Oberflächenrekonstruktionsprozess.
Röntgenbild in Punktwolke:
Röntgenbild lässt sich problemlos in eine Punktwolke umwandeln. Zusätzlich zu den Positionskoordinaten des 3D-Punkts verfügt jeder Punkt in der Punktwolke auch über eine Farbe und einen Normalenvektor Information.
Punktwolke in dreidimensionales Netz:
Der nächste Schritt ist der Prozess der Umwandlung der Punktwolke in ein dreidimensionales Netz. Dies ist eine Technologie, die seit vielen Jahren untersucht wird, da diese Punkte vorliegen Wolken haben Normalenvektoren, daher wird der Screened Poisson-Algorithmus verwendet, um die Punktwolke direkt in ein dreidimensionales Netzmodell umzuwandeln, das das endgültige 3D-Modell darstellt.
Um den hochauflösenden Generator effektiv zu trainieren, hat das Team eine Kaskadensynthesestrategie eingeführt, um mithilfe von Technologien wie Imagen und Stable Cascaded schrittweise von niedriger zu hoher Auflösung zu trainieren, um sich an begrenzte Rechenressourcen anzupassen und die Qualität von Röntgenbildern zu verbessern.
Röntgen-Upsampling-Modell
Das Diffusionsmodell in der vorherigen Stufe kann nur Röntgenbilder mit niedriger Auflösung aus Text oder anderen Bildern erzeugen. In den folgenden Schritten liegt der Schwerpunkt auf der Aufwertung dieser niedrig aufgelösten Röntgenbilder auf höhere Auflösungen.
Das Team untersuchte zwei Hauptmethoden: Punktwolken-Upsampling und Video-Upsampling.
Die Darstellungsstruktur der Punktwolke ist jedoch zu locker und für eine dichte Vorhersage nicht geeignet. Herkömmliche Upsampling-Techniken für Punktwolken erhöhen normalerweise einfach die Anzahl der Punkte, was möglicherweise nicht effektiv genug ist, um Attribute wie Textur und Farbe zu verbessern. Um den Prozess zu vereinfachen und die Konsistenz in der gesamten Pipeline sicherzustellen, haben wir uns für die Verwendung eines Video-Upsampling-Modells entschieden.
Dieses Modell basiert auf dem raumzeitlichen VAE-Decoder von Stable Video Diffusion (SVD) und wurde von Grund auf speziell darauf trainiert, synthetisierte Röntgenbilder um den Faktor 4 hochzurechnen und dabei die ursprüngliche Anzahl an Schichten beizubehalten. Der Decoder ist in der Lage, Aufmerksamkeitsoperationen unabhängig auf Rahmenebene und hierarchischen Ebenen durchzuführen. Dieser zweischichtige Aufmerksamkeitsmechanismus verbessert nicht nur die Auflösung, sondern auch die Gesamtqualität des Bildes erheblich. Diese Funktionen machen das Video-Upsampling-Modell zu einer besser koordinierten und effizienteren Lösung bei der Erzeugung hochauflösender Röntgenaufnahmen.
Abbildung 4: 3D-Modellgenerierungsrahmen basierend auf Röntgendarstellung, einschließlich Röntgendiffusionsmodell und Röntgen-Upsampling-Modell.
Experiment
1. Datensatz:
Diese Teilmenge enthält über 60.000 3D-Objekte. Für jedes Objekt werden 4 Kameraansichten zufällig ausgewählt, die Azimutwinkel von -180 bis 180 Grad und Höhenwinkel von -45 bis 45 Grad abdecken, und der Abstand von der Kamera zum Mittelpunkt des Objekts ist auf 1,5 festgelegt.
Verwenden Sie dann die Blender-Software zum Rendern und generieren Sie die entsprechende Röntgenaufnahme mithilfe des von der Trimesh-Bibliothek bereitgestellten Ray-Casting-Algorithmus. Durch diese Prozesse können über 240.000 Bildpaare und Röntgendatensätze erstellt werden, um generative Modelle zu trainieren.
2. Implementierungsdetails:
Das Röntgendiffusionsmodell basiert auf der raumzeitlichen UNet-Architektur, die bei Stable Video Diffusion (SVD) verwendet wird, mit geringfügigen Anpassungen: Das Modell ist für die Synthese von 8 Kanälen konfiguriert: 1 Trefferkanal, 1 Tiefenkanal und 6 normale Kanäle, im Vergleich auf die 4 Kanäle des ursprünglichen Netzwerks.
Angesichts der erheblichen Unterschiede zwischen Röntgenbildgebung und herkömmlichem Video wurde das Modell von Grund auf trainiert, um die große Lücke zwischen Röntgen- und Videobereich zu schließen. Das Training fand über eine Woche auf 8 NVIDIA A100 GPU-Servern statt. Während dieses Zeitraums wurde die Lernrate mithilfe des AdamW-Optimierers bei 0,0001 gehalten.
Da unterschiedliche Röntgenbilder eine unterschiedliche Anzahl von Schichten haben, füllen oder beschneiden Sie sie zur besseren Stapelverarbeitung und Schulung auf die gleichen 8 Schichten. Die Bildgröße jeder Schicht beträgt 64 x 64. Für das Upsampling-Modell beträgt die Ausgabe der L-Schicht immer noch 8, aber die Auflösung jedes Frames wird auf 256 x 256 erhöht, was die Details und Klarheit der vergrößerten Röntgenaufnahme verbessert. Die Ergebnisse sind in den Abbildungen 5 und 6 dargestellt . Abbildung 5: Bild zu Röntgen und zur 3D-Modellgenerierung Die Möglichkeiten sind endlos
Mit der kontinuierlichen Weiterentwicklung der maschinellen Lern- und Bildverarbeitungstechnologie sind die Anwendungsaussichten von X-Ray unendlich vielfältig.
In Zukunft könnte diese Technologie mit Augmented Reality (AR) und Virtual Reality (VR)-Technologie kombiniert werden, um ein vollständig immersives 3D-Erlebnis für Benutzer zu schaffen. Davon können auch Bildungs- und Ausbildungsbereiche profitieren, etwa durch die Bereitstellung intuitiverer Lernmaterialien und Simulationsexperimente durch 3D-Rekonstruktion.
Darüber hinaus kann die Anwendung der Röntgentechnologie in den Bereichen medizinische Bildgebung und Biotechnologie das Verständnis und die Forschungsmethoden der Menschen für komplexe biologische Strukturen verändern. Freuen Sie sich darauf, wie es die Art und Weise verändert, wie Sie mit der dreidimensionalen Welt interagieren.
Das obige ist der detaillierte Inhalt vonDurchschauen Sie 3D-Darstellungen und generative Modelle von Objekten: NUS-Team schlägt Röntgen vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!