In vielen Bereichen wie AR, VR, 3D-Druck, Szenenaufbau und Filmproduktion sind hochwertige 3D-Modelle des bekleideten menschlichen Körpers sehr wichtig.
Die Erstellung von Modellen mit herkömmlichen Methoden erfordert viel Zeit und kann nur von professioneller Ausrüstung und Technikern durchgeführt werden.
Im Alltag nutzen wir dagegen meist Handykameras oder Porträtfotos von Webseiten.
Daher kann eine Methode, die ein dreidimensionales menschliches Modell aus einem einzigen Bild genau rekonstruieren kann, die Kosten erheblich senken und den unabhängigen Erstellungsprozess vereinfachen.
Vergleich der technischen Route früherer Methoden (links) und dieser Methode (rechts)
Frühere Deep-Learning-Modelle, die für die 3D-Rekonstruktion des menschlichen Körpers verwendet wurden, erfordern häufig drei Schritte: Extrahieren von 2D-Merkmalen aus dem Bild, Die 2D-Merkmale werden in den 3D-Raum übertragen und die 3D-Merkmale werden für die Rekonstruktion des menschlichen Körpers verwendet.
Allerdings ignorieren diese Methoden häufig die Einführung von Prioritäten für den menschlichen Körper in der Phase der Konvertierung von 2D-Merkmalen in den 3D-Raum, was zu einer unzureichenden Merkmalsextraktion und verschiedenen Fehlern in den endgültigen Rekonstruktionsergebnissen führt.
Vergleich des Rekonstruktionseffekts von SIFU und anderen SOTA-Modellen
Darüber hinaus stützten sich frühere Modelle in der Phase der Texturvorhersage nur auf das im Trainingssatz erlernte Wissen und hatten keine Vorkenntnisse darüber reale Welt, was oft dazu führte, dass die Texturvorhersage in unsichtbaren Bereichen schlecht ist.
SIFU führt Vorkenntnisse in die Texturvorhersagephase ein, um den Textureffekt unsichtbarer Bereiche (Rückseite usw.) zu verbessern.
In diesem Zusammenhang schlugen Forscher des ReLER-Labors der Universität Zhejiang das SIFU-Modell vor, das auf der bedingten impliziten Funktion der Seitenansicht beruht, um ein 3D-Modell des menschlichen Körpers aus einem einzelnen Bild zu rekonstruieren.
Bilder
Papieradresse: https://arxiv.org/abs/2312.06704
Projektadresse: https://github.com/River-Zhang/SIFU
Dieses Modell wurde bestanden Die 2D-Merkmale werden in den 3D-Raum konvertiert und die Seitenansicht des menschlichen Körpers wird als a priori-Bedingung eingeführt, um den geometrischen Rekonstruktionseffekt zu verbessern. Und in der Texturoptimierungsphase wird ein vorab trainiertes Diffusionsmodell eingeführt, um das Problem schlechter Textur in unsichtbaren Bereichen zu lösen.
Die Modellpipeline ist wie folgt:
Bilder
Die erste Stufe verwendet die seitliche implizite Funktion, um die Geometrie zu rekonstruieren ( Mesh) des menschlichen Körpers und grobe Textur, die zweite Stufe verwendet das vorab trainierte Diffusionsmodell, um die Textur zu verfeinern.
In der ersten Phase entwarf der Autor einen einzigartigen Seitenansichts-Entkopplungstransformator. Nach dem Extrahieren von 2D-Merkmalen durch den globalen Encoder wurde die Seitenansicht des menschlichen Körpers des Vorgängermodells SMPL-X als Abfrage in den Decoder eingeführt Die 3D-Merkmale des menschlichen Körpers in verschiedenen Richtungen (vorne, hinten, links und rechts) werden von den 2D-Merkmalen des Bildes entkoppelt und schließlich zur Rekonstruktion verwendet.
Diese Methode kombiniert erfolgreich Vorkenntnisse über den menschlichen Körper bei der Umwandlung von 2D-Merkmalen in den 3D-Raum, was zu einem besseren Rekonstruktionseffekt des Modells führt.
In der zweiten Stufe schlägt der Autor einen 3D-konsistenten Texturverfeinerungsprozess vor. Zuerst können die unsichtbaren Bereiche des menschlichen Körpers (Seiten, Rücken) in eine Reihe von Bildern mit kontinuierlichen Betrachtungswinkeln differenziert werden, und dann mit dem Mithilfe eines Diffusionsmodells, das Vorwissen aus umfangreichen Daten erlernt, können grobe Texturbilder konsistent bearbeitet werden, um verfeinerte Ergebnisse zu erzielen. Abschließend wird die Texturkarte des 3D-Modells optimiert, indem der Verlust aus den Bildern vor und nach der Verfeinerung berechnet wird.
Höhere Rekonstruktionsgenauigkeit
Im experimentellen Teil testen die Autoren ihr Modell anhand eines umfassend vielfältigen Testsatzes, darunter CAPE-NFP, CAPE-FP und THuman2.0, und vergleichen es mit Frühere SOTA-Modelle zur Einzelbildrekonstruktion des menschlichen Körpers wurden auf großen Konferenzen veröffentlicht. Nach quantitativen Tests zeigte das SIFU-Modell die besten Ergebnisse sowohl bei der geometrischen Rekonstruktion als auch bei der Texturrekonstruktion.
Bewerten Sie die geometrische Rekonstruktionsgenauigkeit quantitativ.
Bewerten Sie den Texturrekonstruktionseffekt quantitativ.
Verwenden Sie öffentliche Bilder im Internet als Eingabe für die qualitative Effektdemonstration.
Wenn frühere Modelle andere Daten als den Trainingssatz anwenden, weichen die Rekonstruktionsergebnisse oft stark von den Eingabebildern ab, da das geschätzte menschliche Körpermodell SMPL/SMPL-X nicht genau genug ist, was es schwierig macht, sie in praktische Anwendungen umzusetzen.
In diesem Zusammenhang testete der Autor speziell die Robustheit des Modells, indem er Störungen zu den Parametern des vorherigen Modells hinzufügte, um die Pose auszugleichen, und simulierte so die ungenaue SMPL-X-Schätzung in realen Szenen Genauigkeit der Modellrekonstruktion. Die Ergebnisse zeigen, dass das SIFU-Modell in diesem Fall immer noch die beste Rekonstruktionsgenauigkeit aufweist.
Bewerten Sie die Robustheit des Modells, wenn Sie mit einem fehlerhaften menschlichen Körpermodell konfrontiert werden.
Mit realen Bildern funktioniert SIFU immer noch, wenn die vorherige Schätzung des menschlichen Körpermodells ungenau ist. Besserer Rekonstruktionseffekt
Der hochpräzise und hochwertige Rekonstruktionseffekt des SIFU-Modells macht es für eine Vielzahl von Anwendungsszenarien geeignet, einschließlich 3D-Druck, Szenenaufbau, Texturbearbeitung usw. 3D-gedrucktes SIFU-rekonstruiertes menschliches Körpermodell
Mit Hilfe öffentlicher Aktionssequenzdaten , können Sie das rekonstruierte SIFU-Modell steuern Die Texturvorhersage verbessert die Genauigkeit und Wirkung der Rekonstruktion des menschlichen Körpers in einem einzigen Bild erheblich, was dem Modell erhebliche Vorteile in realen Anwendungen verschafft und auch neue Ideen für zukünftige Forschungen auf diesem Gebiet liefert.
Referenz:
https://arxiv.org/abs/2312.06704
Das obige ist der detaillierte Inhalt vonDie Zhejiang-Universität schlägt die neue SOTA-Technologie SIFU vor: Nur ein Bild kann ein hochwertiges 3D-Modell des menschlichen Körpers rekonstruieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!