


Nur 10 % der Parameter werden benötigt, um SOTA zu übertreffen! Die Zhejiang University, Byte und Hong Kong Chinese schlugen gemeinsam einen neuen Rahmen für die Aufgabe „Posenschätzung auf Kategorieebene' vor
Robotern ein dreidimensionales Verständnis von Alltagsgegenständen zu vermitteln, ist eine große Herausforderung bei Robotikanwendungen.
Bei der Erkundung einer unbekannten Umgebung sind die vorhandenen Methoden zur Schätzung der Objektposition aufgrund der Vielfalt der Objektformen immer noch unbefriedigend.
Kürzlich haben Forscher der Zhejiang-Universität, des ByteDance Artificial Intelligence Laboratory und der Chinese University of Hong Kong gemeinsam ein neues Framework für die Objektform- und Posenschätzung auf Kategorieebene aus einem einzelnen RGB-D-Bild vorgeschlagen.
Papieradresse: https://arxiv.org/abs/2210.01112
Projektlink: https://zju3dv.github.io/gCasp
An Um die Formvariation von Objekten innerhalb einer Kategorie zu bewältigen, übernehmen Forscher semantische Grunddarstellungen, um verschiedene Formen in einem einheitlichen latenten Raum zu kodieren. Diese Darstellung wird zuverlässig zwischen beobachteten Punktwolken und geschätzten Formen hergestellt. Der Schlüssel zur Korrespondenz.
Dann wird durch das Entwerfen eines Formdeskriptors, der gegenüber starren Körperähnlichkeitstransformationen invariant ist, die Form- und Posenschätzung des Objekts entkoppelt, wodurch die implizite Formoptimierung des Zielobjekts in jeder Pose unterstützt wird. Experimente zeigen, dass die vorgeschlagene Methode in öffentlichen Datensätzen eine „führende Posenschätzungsleistung“ erzielt. Forschungshintergrund
Im Bereich der Roboterwahrnehmung und -bedienung ist die Schätzung der Form und Stellung von Alltagsgegenständen eine grundlegende Funktion und hat eine Vielzahl von Anwendungen, darunter 3D-Szenenverständnis, Roboterbedienung und autonome Lagerhaltung.
Die meisten frühen Arbeiten zu dieser Aufgabe konzentrierten sich auf die Posenschätzung auf Instanzebene, bei der die Objektposition hauptsächlich durch Ausrichten des beobachteten Objekts an einem bestimmten CAD-Modell ermittelt wird.
Allerdings ist ein solcher Aufbau in realen Szenarien nur begrenzt möglich, da es schwierig ist, im Voraus ein genaues Modell eines bestimmten Objekts zu erhalten.
Um auf unsichtbare, aber semantisch vertraute Objekte zu verallgemeinern, zieht die Schätzung der Objekthaltung auf Kategorieebene immer mehr Aufmerksamkeit in der Forschung auf sich, da sie möglicherweise verschiedene Instanzen derselben Kategorie in realen Szenen verarbeiten kann.
Bestehende Posenschätzungsmethoden auf Kategorieebene versuchen normalerweise, die normalisierten Koordinaten von Instanzen in einer Klasse auf Pixelebene vorherzusagen, oder verwenden nach der Verformung ein Referenz-Vormodell, um die Objektpose abzuschätzen.
Obwohl diese Arbeiten große Fortschritte gemacht haben, stoßen diese One-Shot-Vorhersagemethoden immer noch auf Schwierigkeiten, wenn es in derselben Kategorie große Formunterschiede gibt.
Um die Vielfalt von Objekten innerhalb derselben Kategorie zu bewältigen, nutzen einige Arbeiten eine neuronale implizite Darstellung, um sich an die Form des Zielobjekts anzupassen, indem sie die Pose und Form im impliziten Raum iterativ optimieren und eine bessere Leistung erzielen.
Bei der Posenschätzung von Objekten auf Kategorieebene gibt es zwei Hauptherausforderungen. Zum einen besteht der große Formunterschied innerhalb der Klasse, zum anderen besteht die Kopplung bestehender Methoden aus Form und Pose zur Optimierung, was leicht zu Optimierungsproblemen führen kann. Komplexer.
In diesem Artikel entkoppeln Forscher die Form- und Posenschätzung von Objekten, indem sie einen Formdeskriptor entwerfen, der gegenüber starren Körperähnlichkeitstransformationen invariant ist und so die implizite Formoptimierung von Zielobjekten in beliebigen Posen unterstützt. Schließlich werden Maßstab und Lage des Objekts auf der Grundlage der semantischen Assoziation zwischen der geschätzten Form und der Beobachtung ermittelt.
Einführung in den Algorithmus
Der Algorithmus besteht aus drei Modulen:
Semantische Primitivextraktion, Generative Formschätzung und Objektpositionsschätzung.
Die Eingabe des Algorithmus ist ein einzelnes RGB-D-Bild. Der Algorithmus verwendet vorab trainiertes Mask R-CNN, um die semantischen Segmentierungsergebnisse des RGB-Bildes zu erhalten, und projiziert dann die Punktwolke zurück jedes Objekts basierend auf den internen Parametern der Kamera. Diese Methode verarbeitet hauptsächlich Punktwolken und ermittelt schließlich den Maßstab und die 6DoF-Pose jedes Objekts.
Semantische Primitivextraktion
DualSDF [1] schlug eine semantische Darstellungsmethode für Primitive für ähnliche Objekte vor. Wie auf der linken Seite der Abbildung unten gezeigt, ist jede Instanz im gleichen Objekttyp in eine bestimmte Anzahl semantischer Grundelemente unterteilt, und die Bezeichnung jedes Grundelements entspricht einem bestimmten Teil eines bestimmten Objekttyps.
Um die semantischen Grundelemente von Objekten aus der Beobachtungspunktwolke zu extrahieren, verwendet der Autor ein Punktwolken-Segmentierungsnetzwerk, um die Beobachtungspunktwolke in Semantik mit Bezeichnungen als Grundelemente zu segmentieren .
Generative Formschätzung
# 🎜 🎜 #Die meisten generativen 3D-Modelle (wie DeepSDF) arbeiten in einem normalisierten Koordinatensystem.
Allerdings wird es eine ähnliche Posentransformation (Rotation, Translation und Skalierung) zwischen dem Objekt in der realen Beobachtung und dem normalisierten Koordinatensystem geben.
Um die normalisierte Form zu lösen, die der aktuellen Beobachtung entspricht, wenn die Pose unbekannt ist, schlägt der Autor eine Methode vor, die gegenüber der Ähnlichkeitstransformation auf der Grundlage semantischer primitiver Darstellung invariant ist . Formdeskriptor.
Dieser Deskriptor ist in der folgenden Abbildung dargestellt, die den Winkel zwischen Vektoren beschreibt, die aus verschiedenen Grundelementen bestehen: #🎜 🎜##🎜 🎜#
Der Autor verwendet diesen Deskriptor, um den Fehler zwischen der aktuellen Beobachtung und der geschätzten Form zu messen, und verwendet den Gradientenabstieg, um die geschätzte Form konsistenter mit der Beobachtung zu machen in der folgenden Abbildung dargestellt. Der Autor zeigt auch weitere Beispiele zur Formoptimierung. #? Die semantische primitive Entsprechung zwischen der beobachteten Punktwolke und der gelösten Form verwendet der Autor den Umeyama-Algorithmus, um die Pose der beobachteten Form zu lösen.
Experimentelle Ergebnisse
Der Autor hat REAL275 (realer Datensatz) in NOCS bereitgestellt und Es wurden Vergleichsexperimente mit dem Datensatz CAMERA25 (synthetischer Datensatz) durchgeführt und die Genauigkeit der Posenschätzung mit anderen Methoden verglichen. Die vorgeschlagene Methode übertraf andere Methoden bei mehreren Indikatoren bei weitem.
Gleichzeitig verglich der Autor auch die Menge der Parameter, die auf dem von NOCS bereitgestellten Trainingssatz trainiert werden müssen. Der Autor benötigt mindestens 2,3 Millionen Parameter, um das State-of-the-Art-Niveau zu erreichen.
Das obige ist der detaillierte Inhalt vonNur 10 % der Parameter werden benötigt, um SOTA zu übertreffen! Die Zhejiang University, Byte und Hong Kong Chinese schlugen gemeinsam einen neuen Rahmen für die Aufgabe „Posenschätzung auf Kategorieebene' vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren

Projektlink vorne geschrieben: https://nianticlabs.github.io/mickey/ Anhand zweier Bilder kann die Kameraposition zwischen ihnen geschätzt werden, indem die Korrespondenz zwischen den Bildern hergestellt wird. Normalerweise handelt es sich bei diesen Entsprechungen um 2D-zu-2D-Entsprechungen, und unsere geschätzten Posen sind maßstabsunabhängig. Einige Anwendungen, wie z. B. Instant Augmented Reality jederzeit und überall, erfordern eine Posenschätzung von Skalenmetriken und sind daher auf externe Tiefenschätzer angewiesen, um die Skalierung wiederherzustellen. In diesem Artikel wird MicKey vorgeschlagen, ein Keypoint-Matching-Prozess, mit dem metrische Korrespondenzen im 3D-Kameraraum vorhergesagt werden können. Durch das Erlernen des 3D-Koordinatenabgleichs zwischen Bildern können wir auf metrische Relativwerte schließen
