NeRF (Neural Radiance Fields), auch bekannt als neuronale Strahlungsfelder, hat sich seit seiner Einführung schnell zu einem der beliebtesten Forschungsgebiete entwickelt und die Ergebnisse sind erstaunlich. Die direkte Ausgabe von NeRF ist jedoch nur ein farbiges Dichtefeld, das den Forschern nur wenige Informationen liefert. Der Mangel an Kontext ist eines der Probleme, mit denen man sich befassen muss. Der Effekt besteht darin, dass er sich direkt auf die Konstruktion interaktiver Schnittstellen mit 3D auswirkt Szenen.
Aber natürliche Sprache ist anders. Natürliche Sprache interagiert sehr intuitiv mit 3D-Szenen. Wir können die Küchenszene in Abbildung 1 verwenden, um zu erklären, dass Objekte in der Küche gefunden werden können, indem man fragt, wo sich das Besteck befindet, oder fragt, wo sich die zum Rühren verwendeten Werkzeuge befinden. Um diese Aufgabe zu erfüllen, sind jedoch nicht nur die Abfragefähigkeiten des Modells erforderlich, sondern auch die Fähigkeit, Semantik auf mehreren Skalen zu integrieren.
In diesem Artikel schlugen Forscher der UC Berkeley eine neuartige Methode vor und nannten sie LERF (Language Embedded Radiance Fields), die Sprachen in Modelle wie CLIP (Contrastive Language-Image Pre-training) einbettet NeRF, wodurch diese Art von 3D-Open-Language-Abfragen möglich wird. LERF verwendet CLIP direkt, ohne dass eine Feinabstimmung durch Datensätze wie COCO erforderlich ist oder sich auf Vorschläge für maskierte Regionen verlassen muss. LERF bewahrt die Integrität von CLIP-Einbettungen auf mehreren Ebenen und ist außerdem in der Lage, eine Vielzahl sprachlicher Abfragen zu verarbeiten, einschließlich visueller Attribute (z. B. Gelb), abstrakter Konzepte (z. B. elektrischer Strom), Text usw., wie in Abbildung 1 dargestellt .
Paper -Adresse: https://arxiv.org/pdf/2303.09553v1.pdf
project Homepage: https://www.lerf.io/
LERF kann interaktiv 3D-Korrelationsdiagramme für Sprachansagen in Echtzeit extrahieren. Geben Sie beispielsweise auf einem Tisch mit einem Lamm und einem Wasserbecher das prompte Lamm oder den Wasserbecher ein, und LERF kann die entsprechende 3D-Karte bereitstellen:
Bei komplexen Blumensträußen kann LERF auch Folgendes genau positionieren:
Verschiedene Objekte in der Küche:
Diese Studie konstruierte eine neue Methode LERF, indem sie gemeinsam mit NeRF das Sprachfeld optimierte. LERF verwendet Position und physikalische Skalierung als Eingabe und gibt einen einzelnen CLIP-Vektor aus. Während des Trainings werden die Felder mithilfe einer mehrskaligen Feature-Pyramide überwacht, die CLIP-Einbettungen enthält, die aus Bildausschnitten der Trainingsansichten generiert werden. Dadurch kann der CLIP-Encoder den Bildkontext in unterschiedlichen Maßstäben erfassen und so denselben 3D-Standort mit Spracheinbettungen in unterschiedlichen Maßstäben verknüpfen. LERF kann während des Tests das Sprachfeld in jedem Maßstab abfragen, um eine 3D-Korrelationskarte zu erhalten.
Da CLIP-Einbettungen aus mehreren Ansichten in mehreren Maßstäben extrahiert werden, ist die Relevanzkarte einer Textabfrage, die durch die 3D-CLIP-Einbettung erhalten wird, stärker lokalisiert als die, die durch die 2D-CLIP-Einbettung erhalten wird, und ist 3D-konsistent und kann direkt im 3D-Feld abgefragt werden, ohne dass mehrere Ansichten gerendert werden müssen.
LERF erfordert das Erlernen eines Spracheinbettungsfelds auf einem Volumen, das auf einem Beispielpunkt zentriert ist. Konkret handelt es sich bei der Ausgabe dieses Feldes um die durchschnittliche CLIP-Einbettung aller Trainingsansichten, die Bildausschnitte des angegebenen Volumens enthalten. Durch die Rekonstruktion der Abfrage von Punkten zu Volumina kann LERF dichte Felder aus groben Ausschnitten von Eingabebildern effektiv überwachen, die durch Konditionierung auf einer bestimmten volumetrischen Skala pixelausgerichtet gerendert werden können.
LERF selbst liefert kohärente Ergebnisse, aber die resultierende Korrelationskarte kann manchmal unvollständig sein und einige Ausreißer enthalten, wie in Abbildung 5 unten dargestellt.
Um das optimierte Sprachfeld zu regulieren, führt diese Studie selbstüberwachtes DINO ein, indem Engpässe geteilt werden.
In Bezug auf die Architektur sollte die Optimierung der Spracheinbettung in 3D keinen Einfluss auf die Dichteverteilung in der zugrunde liegenden Szenendarstellung haben. Daher erfasst diese Studie die induktive Verzerrung in LERF, indem sie zwei unabhängige Netzwerke trainiert: eines mit für Eigenvektoren (DINO, CLIP) und eine weitere für die Standard-NeRF-Ausgabe (Farbe, Dichte).
Um die Fähigkeit von LERF zur Verarbeitung realer Daten zu demonstrieren, wurden im Rahmen der Studie 13 Szenen erfasst, darunter Lebensmittelgeschäfte, Küchen, Buchhandlungen, Figuren usw. In Abbildung 3 werden fünf repräsentative Szenarien ausgewählt, um die Fähigkeit von LERF zur Verarbeitung natürlicher Sprache zu demonstrieren.
Figure 3
Figure 7 ist ein 3D -visueller Vergleich von LERF und LSEG.
Abbildung 8 zeigt, dass LSeg, das auf einem begrenzten segmentierten Datensatz trainiert wurde, nicht in der Lage ist, natürliche Sprache effektiv darzustellen. Stattdessen funktioniert es nur bei gemeinsamen Objekten innerhalb der Trainingssatzverteilung gut, wie in Abbildung 7 dargestellt.Die LERF-Methode ist jedoch noch nicht perfekt. Bei der Kalibrierung von Zucchini-Gemüse treten beispielsweise folgende Fehler auf:
Das obige ist der detaillierte Inhalt vonNatürliche Sprache ist in NeRF integriert, und LERF, das mit nur wenigen Worten 3D-Bilder generiert, ist da.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!