Heim > Technologie-Peripheriegeräte > KI > CVPR 2024 |. Zero-Sample-6D-Objekthaltungsschätzungs-Framework SAM-6D, ein Schritt näher an der verkörperten Intelligenz

CVPR 2024 |. Zero-Sample-6D-Objekthaltungsschätzungs-Framework SAM-6D, ein Schritt näher an der verkörperten Intelligenz

王林
Freigeben: 2024-03-25 18:56:18
nach vorne
581 Leute haben es durchsucht

Die Schätzung der Objekthaltung spielt in vielen praktischen Anwendungen eine Schlüsselrolle, beispielsweise in Bereichen wie verkörperte Intelligenz, Roboterbetrieb und Augmented Reality.

In diesem Bereich ist die Aufgabe, die zuerst Aufmerksamkeit erregte, die 6D-Posenschätzung auf Instanzebene, die annotierte Daten über das Zielobjekt für das Modelltraining erfordert, wodurch das tiefe Modell objektspezifisch wird und nicht auf neue Objekte übertragen werden kann. Vorgesetzter. Später verlagerte sich der Forschungsschwerpunkt nach und nach auf die „6D-Posenschätzung auf Kategorieebene“, die zur Verarbeitung unsichtbarer Objekte verwendet wird, aber erfordert, dass das Objekt zu einer bekannten Kategorie von Interesse gehört. Und Zero-Shot 6D-Poseschätzung ist eine allgemeinere Aufgabenstellung, bei der ein CAD-Modell eines beliebigen Objekts gegeben wird und die darauf abzielt, das Zielobjekt in der Szene zu erkennen und seine 6D-Pose abzuschätzen. Trotz ihrer Bedeutung steht diese Zero-Shot-Aufgabeneinstellung vor erheblichen Herausforderungen sowohl bei der Objekterkennung als auch bei der Posenschätzung.

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步                                                                                                                                                                       Abbildung 1. 6D-Objektposition ohne Stichprobe ationsaufgabe

In letzter Zeit hat das Segmentierungs-All-Model-SAM [1] viel Aufmerksamkeit auf sich gezogen und seine hervorragende Null-Probe-Segmentierungsfähigkeit ist ein Blickfang. SAM erreicht eine hochpräzise Segmentierung durch verschiedene Hinweise wie Pixel, Begrenzungsrahmen, Text und Masken usw., was auch eine zuverlässige Unterstützung für die Null-Probe-6D-Objekthaltungsschätzungsaufgabe bietet und sein vielversprechendes Potenzial demonstriert. Daher wurde von Forschern von Cross-Dimensional Intelligence, der Chinese University of Hong Kong (Shenzhen) und der South China University of Technology ein neues Zero-Sample-Framework zur 6D-Objekthaltungsschätzung SAM-6D vorgeschlagen. Diese Forschung wurde vom CVPR 2024 anerkannt.

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步Papier-Link: https://arxiv.org/pdf/2311.15707.pdf

  • Code-Link: https://github.com/JiehongLin/SAM-6D

  • SAM-6D Die Posenschätzung von 6D-Objekten ohne Stichprobe wird durch zwei Schritte erreicht, einschließlich Instanzsegmentierung und Posenschätzung. Dementsprechend nutzt SAM-6D bei jedem Zielobjekt zwei dedizierte Subnetzwerke, nämlich

    Instance Segmentation Model (ISM) und Pose Estimation Model (PEM)
  • , um das Ziel aus RGB-D-Szenenbildern zu erreichen, wobei ISM SAM verwendet Als hervorragender Ausgangspunkt, kombiniert mit sorgfältig entwickelten Objekt-Matching-Scores, um eine Instanzsegmentierung beliebiger Objekte zu erreichen, löst PEM das Objekt-Posen-Problem durch einen zweistufigen Punktsatz-Matching-Prozess von lokal zu lokal. Eine Übersicht über den SAM-6D ist in Abbildung 2 dargestellt.

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步                                                                                                                                                                                                                                                          andere AM-6D ist ein innovatives Zero-Sample-6D-Posenschätzungs-Framework, das anhand des CAD-Modells eines beliebigen Objekts eine Instanzsegmentierung und Posenschätzung von Zielobjekten aus RGB-D-Bildern erreicht und eine hervorragende Leistung erbringt zu den sieben Kerndatensätzen von BOP [2].

SAM-6D nutzt die Zero-Shot-Segmentierungsfähigkeit des Segment Everything-Modells, um alle möglichen Kandidaten zu generieren, und entwirft einen neuartigen Objekt-Matching-Score, um Kandidaten zu identifizieren, die Zielobjekten entsprechen.

SAM-6D behandelt die Posenschätzung als ein lokales Punktmengen-Matching-Problem, übernimmt ein einfaches, aber effektives Hintergrund-Token-Design und schlägt zunächst ein zweistufiges Punktmengen-Matching-Modell für beliebige Objekte vor. Die erste Stufe wird implementiert Grober Punktsatzabgleich, um die anfängliche Objektpose zu erhalten, und die zweite Stufe verwendet einen neuartigen Punktsatztransformator von dünner bis dichter Dichte, um einen feinen Punktsatzabgleich durchzuführen, um die Pose weiter zu optimieren.

  • Instance Segmentation Model (ISM)
  • SAM-6D verwendet das Instance Segmentation Model (ISM), um Masken beliebiger Objekte zu erkennen und zu segmentieren.

  • Angesichts einer überfüllten Szene, die durch RGB-Bilder dargestellt wird, nutzt ISM die Zero-Shot-Übertragungsfunktion des Segmentation Everything Model (SAM), um alle möglichen Kandidaten zu generieren. Für jedes Kandidatenobjekt berechnet ISM einen Objektübereinstimmungswert, um abzuschätzen, wie gut es in Bezug auf Semantik, Aussehen und Geometrie mit dem Zielobjekt übereinstimmt. Schließlich können durch einfaches Festlegen eines Übereinstimmungsschwellenwerts Instanzen identifiziert werden, die mit dem Zielobjekt übereinstimmen.
  • Der Objekt-Matching-Score wird durch die gewichtete Summe von drei Matching-Termen berechnet:

Semantischer Matching-Term

– Für das Zielobjekt rendert ISM Objektvorlagen aus mehreren Perspektiven und verwendet DINOv2 [3] für das Vortraining des ViT-Modells Extrahiert semantische Merkmale von Kandidatenobjekten und Objektvorlagen und berechnet Korrelationswerte zwischen ihnen. Die semantische Übereinstimmungsbewertung wird durch Mitteln der höchsten K-Bewertungen erhalten, und die Objektvorlage, die der höchsten Korrelationsbewertung entspricht, wird als die am besten übereinstimmende Vorlage angesehen.

Aussehensübereinstimmung – Für die beste Übereinstimmungsvorlage wird das ViT-Modell verwendet, um Bildblockmerkmale zu extrahieren und die Korrelation zwischen ihnen und den Blockmerkmalen des Kandidatenobjekts zu berechnen, um den Aussehensübereinstimmungswert zu erhalten, der zur Unterscheidung semantisch ähnlicher Elemente verwendet wird aber äußerlich passende Gegenstände.

Geometrische Übereinstimmungen – Unter Berücksichtigung von Faktoren wie den Unterschieden in Form und Größe verschiedener Objekte hat ISM auch einen geometrischen Übereinstimmungswert entwickelt. Der Durchschnitt der Drehung entsprechend der am besten passenden Vorlage und der Punktwolke des Kandidatenobjekts kann eine grobe Objekthaltung ergeben, und der Begrenzungsrahmen kann durch starre Transformation und Projektion des Objekt-CAD-Modells unter Verwendung dieser Haltung erhalten werden. Durch Berechnen des Schnittmengen-über-Union-Verhältnisses (IoU) zwischen dem Begrenzungsrahmen und dem Kandidaten-Begrenzungsrahmen kann der geometrische Übereinstimmungswert ermittelt werden.

Pose Estimation Model (PEM)

Für jedes Kandidatenobjekt, das mit einem Zielobjekt übereinstimmt, verwendet SAM-6D ein Pose Estimation Model (PEM), um seine 6D-Pose relativ zum CAD-Modell des Objekts vorherzusagen.

Bezeichnen Sie die Abtastpunktsätze segmentierter Kandidatenobjekte und Objekt-CAD-Modelle als CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 bzw. CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步, wobei N_m und N_o gleichzeitig die Anzahl ihrer Punkte darstellen und die Eigenschaften dieser beiden Punktsätze als CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 und CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 darstellen. C steht für die Anzahl der Kanäle der Funktion. Das Ziel von PEM besteht darin, eine Zuordnungsmatrix zu erhalten, die die örtliche Korrespondenz von P_m zu P_o darstellt. Aufgrund der Okklusion stimmt P_o nur teilweise mit P_m überein, und aufgrund von Segmentierungsungenauigkeiten und Sensorrauschen stimmt P_m nur teilweise überein. Teilweise UND-Übereinstimmungen P_o.

Um das Problem der Zuweisung nicht überlappender Punkte in zwei Punktmengen zu lösen, stattet ISM sie mit Hintergrund-Tokens aus, die als CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 und CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 bezeichnet werden und auf der Grundlage der Merkmalsähnlichkeit effektiv eine lokale Korrespondenz herstellen können. Konkret kann die Aufmerksamkeitsmatrix zunächst wie folgt berechnet werden:

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

Dann stellen die Verteilungsmatrix

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 und CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 die Softmax-Operation entlang der Zeilen bzw. Spalten dar und CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 stellt eine Konstante dar. Der Wert jeder Zeile in CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步 (mit Ausnahme der ersten Zeile) stellt die Übereinstimmungswahrscheinlichkeit jedes Punktes P_m in der Punktmenge P_m mit dem Hintergrund und dem Mittelpunkt von P_o dar. Durch Lokalisieren des Index der maximalen Punktzahl wird der Punkt, der P_m entspricht (einschließlich). der Hintergrund) finden Sie ).

Sobald CVPR 2024 |. Zero-Sample-6D-Objekthaltungsschätzungs-Framework SAM-6D, ein Schritt näher an der verkörperten Intelligenz berechnet ist, können alle übereinstimmenden Punktpaare {(P_m,P_o)} und ihre Übereinstimmungswerte gesammelt werden, und schließlich wird die gewichtete SVD zur Berechnung der Objektpose verwendet.

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

                                                                                                                                                                                      

Unter Verwendung der oben genannten Strategie basierend auf dem Hintergrundtoken werden in PEM zwei Phasen des Punktsatzabgleichs entworfen. Die Modellstruktur ist in Abbildung 3 dargestellt, die drei Module umfasst: Merkmalsextraktion, grober Punktsatzabgleich und feiner Punktsatzabgleich.

Das Modul zur groben Punktmengenanpassung implementiert eine spärliche Korrespondenz, um die anfängliche Objekthaltung zu berechnen, und verwendet diese Haltung dann, um die Punktmenge des Kandidatenobjekts zu transformieren, um ein Lernen der Positionskodierung zu erreichen.

Das Feinpunktsatz-Matching-Modul kombiniert die Positionskodierung der Beispielpunktsätze des Kandidatenobjekts und des Zielobjekts, wodurch in der ersten Stufe die grobe Korrespondenz eingefügt und weiter eine dichte Korrespondenz hergestellt wird, um eine präzisere Objekthaltung zu erhalten. Um dichte Wechselwirkungen in dieser Phase effektiv zu lernen, führt PEM einen neuartigen Transformator für spärliche in dichte Punktmengen ein, der Wechselwirkungen auf spärliche Versionen dichter Merkmale implementiert und den linearen Transformator [5] verwendet, um die verbesserten spärlichen Merkmale in Diffusion zurück in dichte umzuwandeln Merkmale.

Experimentelle Ergebnisse

Für die beiden Untermodelle von SAM-6D basiert das Instanzsegmentierungsmodell (ISM) auf SAM, ohne dass eine Neuschulung und Feinabstimmung des Netzwerks erforderlich ist, während das Posenschätzungsmodell (PEM) MegaPose verwendet [4] stellt umfangreiche synthetische Datensätze von ShapeNet-Objects und Google-Scanned-Objects für das Training bereit.

Um seine Zero-Sample-Fähigkeit zu überprüfen, wurde SAM-6D an sieben Kerndatensätzen von BOP [2] getestet, darunter LM-O, T-LESS, TUD-L, IC-BIN, ITODD, HB und YCB-V . Die Tabellen 1 und 2 zeigen den Vergleich der Instanzsegmentierungs- und Posenschätzungsergebnisse verschiedener Methoden für diese sieben Datensätze. Im Vergleich zu anderen Methoden schneidet SAM-6D bei beiden Methoden sehr gut ab und stellt seine starke Generalisierungsfähigkeit voll unter Beweis. B Tabelle 1. Das Sterilisationsergebnis verschiedener Methoden zu den sieben Kerndatensätzen zu BOP

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

Tabellen 2. Verschiedene Methoden zur Einstellung verschiedener Methoden zu den sieben Kerndatensätzen zu BOP Vergleich der Ergebnisse

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步Abbildung 4 zeigt die visuellen Ergebnisse der Erkennungssegmentierung und der 6D-Lageschätzung von SAM-6D anhand von sieben BOP-Datensätzen, wobei (a) und (b) die getesteten RGB-Bilder bzw. Tiefenkarten sind und (c) ein gegebenes Ziel ist Objekt, während (d) und (e) die Visualisierungsergebnisse der Erkennungssegmentierung bzw. der 6D-Pose sind. -Abbildung 4. Die visuellen Ergebnisse der sieben Kerndatensätze von SAM-6D auf dem BOP.

Weitere Implementierungsdetails von SAM-6D finden Sie im Originalpapier.

Referenzen:

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步

[1] Alexander Kirillov et. al., „Segment everything.“

[2] Martin Sundermeyer et. al., „Bop Challenge 2022 zur Erkennung, Segmentierung und Posenschätzung spezifischer starrer Objekte.“

[3] Maxime Oquab et. al., „Dinov2: Learning Robuste visuelle Funktionen ohne Aufsicht . al., „Transformer sind rnns: Schnelle autoregressive

Transformer mit linearer Aufmerksamkeit.“

Das obige ist der detaillierte Inhalt vonCVPR 2024 |. Zero-Sample-6D-Objekthaltungsschätzungs-Framework SAM-6D, ein Schritt näher an der verkörperten Intelligenz. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:jiqizhixin.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage