


Neue Methode der 3D-Modellsegmentierung macht Ihre Hände frei! Es ist keine manuelle Kennzeichnung erforderlich, es ist nur eine Schulung erforderlich, und auch nicht gekennzeichnete Kategorien können HKU und Byte erkennen
Es ist keine manuelle Anmerkung erforderlich, es ist nur eine Schulung erforderlich, damit das 3D-Modell die Sprache verstehen und unbeschriftete Kategorien identifizieren kann.
3D-Modellsegmentierung ist jetzt freihändig!
Die University of Hong Kong und ByteDream haben zusammengearbeitet und eine neue Methode entwickelt:
Es ist keine manuelle Annotation erforderlich und es ist nur eine Schulung erforderlich, damit das 3D-Modell die Sprache verstehen und unbeschriftete Kategorien identifizieren kann.
Sehen Sie sich zum Beispiel das folgende Beispiel an: Tafel und Monitor ohne Anmerkungen. Nachdem das 3D-Modell mit dieser Methode trainiert wurde, kann es das Ziel für die Segmentierung schnell „erfassen“.
Ein weiteres Beispiel: Wenn Sie Synonyme wie Sofa und Husten eingeben, damit es schwierig wird, können Sie es leicht gewinnen.
Auch abstrakte Kategorien wie Badezimmer können gelöst werden.
Diese neue Methode heißt PLA (Point-Language Assocation), eine Methode, die Punktwolke (eine riesige Punktsammlung von Zieloberflächeneigenschaften) und natürliche Sprache kombiniert.
Derzeit wurde dieses Papier von CVPR 2023 angenommen.
Aber es ist keine manuelle Kennzeichnung erforderlich, es wird nur ein Training durchgeführt und auch die abstrakte Klassifizierung von Synonymen kann erkannt werden ... Dies ist eine Überlagerung mehrerer Buffs.
Sie müssen wissen, dass die 3D-Daten und die natürliche Sprache, die von allgemeinen Methoden verwendet werden, nicht kostenlos direkt aus dem Internet bezogen werden können und oft eine teure manuelle Annotation erfordern, und dass allgemeine Methoden keine neuen Kategorien basierend auf der semantischen Verbindung zwischen Wörtern identifizieren können.
Wie macht PLA das? Werfen wir einen Blick auf ~
Das spezifische Prinzip
Um es ganz klar auszudrücken: Der wichtigste Schritt für eine erfolgreiche 3D-Modellaufteilung besteht darin, die 3D-Daten in natürlicher Sprache verständlich zu machen.
Professionell gesehen geht es darum, Beschreibungen in natürlicher Sprache in 3D-Punktwolken einzuführen.
Wie stellt man es vor?
Angesichts der Tatsache, dass es derzeit relativ erfolgreiche Methoden zur Aufteilung von 2D-Bildern gibt, entschied sich das Forschungsteam, mit 2D-Bildern zu beginnen.
Konvertieren Sie zunächst die 3D-Punktwolke in das entsprechende 2D-Bild, verwenden Sie sie dann als Eingabe für das multimodale 2D-Großmodell und extrahieren Sie daraus die Sprachbeschreibung des Bildes.
Als nächstes kann mithilfe der Projektionsbeziehung zwischen dem Bild und der Punktwolke die Sprachbeschreibung des Bildes natürlich mit den 3D-Punktwolkendaten verknüpft werden.
Und um mit 3D-Objekten unterschiedlicher Granularität kompatibel zu sein, schlägt PLA auch eine Korrelationsmethode zwischen 3D-Punktwolke und natürlicher Sprache mit mehreren Granularitäten vor.
Für die gesamte 3D-Szene fasst PLA die aus allen der Szene entsprechenden Bildern extrahierten Sprachbeschreibungen zusammen und verwendet diese zusammengefasste Sprache, um die gesamte 3D-Szene zuzuordnen.
Für die partielle 3D-Szene, die jeder Bildansicht entspricht, verwendet PLA das Bild direkt als Brücke, um die entsprechende 3D-Punktwolke und Sprache zuzuordnen.
Für feinkörnigere 3D-Objekte bietet PLA eine feinkörnigere 3D-Sprachbezogene Methode.
Auf diese Weise kann das Forschungsteam Paare von 3D-Punktwolken erhalten – natürliche Sprache, die das Problem der manuellen Annotation direkt löst.
PLA verwendet das erhaltene Paar „3D-Punktwolke-natürliche Sprache“ und die Überwachung vorhandener Datensätze, damit das 3D-Modell die Definition des Erkennungs- und Segmentierungsproblems verstehen kann.
Kontrastives Lernen wird insbesondere verwendet, um den Abstand zwischen jedem Paar von 3D-Punktwolken und natürlicher Sprache im Merkmalsraum zu verkürzen und die nicht übereinstimmenden 3D-Punktwolken und Beschreibungen in natürlicher Sprache zu entfernen.
Nachdem wir über so viele Prinzipien gesprochen haben, wie funktioniert PLA bei bestimmten Segmentierungsaufgaben?
Die semantische Segmentierungsaufgabe übertraf die Basislinie um 65 %
Die Forscher testeten die Leistung des 3D-Open-World-Modells in unbeschrifteten Kategorien als Hauptmesskriterium.
Erstens übertraf PLA bei den semantischen Segmentierungsaufgaben von ScanNet und S3DIS die vorherige Basismethode um 35 % bis 65 %.
Bei der Instanzsegmentierungsaufgabe wurde PLA ebenfalls verbessert. Im Vergleich zur vorherigen Methode liegt die PLA-Verbesserung zwischen 15 % und 50 %.
Forschungsteam
Das Forschungsteam für dieses Projekt kommt vom CVMI Lab der University of Hong Kong und ByteDance.
CVMI Lab ist ein Labor für künstliche Intelligenz der Universität Hongkong. Das Labor wurde am 1. Februar 2020 gegründet.
Der Forschungsumfang umfasst Computer Vision und Mustererkennung, maschinelles Lernen/Deep Learning, Bild-/Videoinhaltsanalyse und industrielle Big-Data-Analyse auf Basis maschineller Intelligenz.
Adresse der Abschlussarbeit:https://arxiv.org/pdf/2211.16312.pdf
Projektinhaber:https://github.com/CVMI-Lab/PLA
Das obige ist der detaillierte Inhalt vonNeue Methode der 3D-Modellsegmentierung macht Ihre Hände frei! Es ist keine manuelle Kennzeichnung erforderlich, es ist nur eine Schulung erforderlich, und auch nicht gekennzeichnete Kategorien können HKU und Byte erkennen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Oben geschrieben und persönliches Verständnis des Autors. Dreidimensionales Gaussplatting (3DGS) ist eine transformative Technologie, die in den letzten Jahren in den Bereichen explizite Strahlungsfelder und Computergrafik entstanden ist. Diese innovative Methode zeichnet sich durch die Verwendung von Millionen von 3D-Gaußkurven aus, was sich stark von der Neural Radiation Field (NeRF)-Methode unterscheidet, die hauptsächlich ein implizites koordinatenbasiertes Modell verwendet, um räumliche Koordinaten auf Pixelwerte abzubilden. Mit seiner expliziten Szenendarstellung und differenzierbaren Rendering-Algorithmen garantiert 3DGS nicht nur Echtzeit-Rendering-Fähigkeiten, sondern führt auch ein beispielloses Maß an Kontrolle und Szenenbearbeitung ein. Dies positioniert 3DGS als potenziellen Game-Changer für die 3D-Rekonstruktion und -Darstellung der nächsten Generation. Zu diesem Zweck geben wir erstmals einen systematischen Überblick über die neuesten Entwicklungen und Anliegen im Bereich 3DGS.

Sie müssen bedenken, insbesondere wenn Sie Teams-Benutzer sind, dass Microsoft seiner arbeitsorientierten Videokonferenz-App eine neue Reihe von 3DFluent-Emojis hinzugefügt hat. Nachdem Microsoft letztes Jahr 3D-Emojis für Teams und Windows angekündigt hatte, wurden im Rahmen des Prozesses tatsächlich mehr als 1.800 bestehende Emojis für die Plattform aktualisiert. Diese große Idee und die Einführung des 3DFluent-Emoji-Updates für Teams wurden erstmals über einen offiziellen Blogbeitrag beworben. Das neueste Teams-Update bringt FluentEmojis in die App. Laut Microsoft werden uns die aktualisierten 1.800 Emojis täglich zur Verfügung stehen

0. Vorab geschrieben&& Persönliches Verständnis, dass autonome Fahrsysteme auf fortschrittlichen Wahrnehmungs-, Entscheidungs- und Steuerungstechnologien beruhen, indem sie verschiedene Sensoren (wie Kameras, Lidar, Radar usw.) verwenden, um die Umgebung wahrzunehmen, und Algorithmen und Modelle verwenden für Echtzeitanalysen und Entscheidungsfindung. Dies ermöglicht es Fahrzeugen, Verkehrszeichen zu erkennen, andere Fahrzeuge zu erkennen und zu verfolgen, das Verhalten von Fußgängern vorherzusagen usw. und sich so sicher an komplexe Verkehrsumgebungen anzupassen. Diese Technologie erregt derzeit große Aufmerksamkeit und gilt als wichtiger Entwicklungsbereich für die Zukunft des Transportwesens . eins. Aber was autonomes Fahren schwierig macht, ist herauszufinden, wie man dem Auto klarmachen kann, was um es herum passiert. Dies erfordert, dass der dreidimensionale Objekterkennungsalgorithmus im autonomen Fahrsystem Objekte in der Umgebung, einschließlich ihrer Standorte, genau wahrnehmen und beschreiben kann.

Oben geschrieben und das persönliche Verständnis des Autors: Derzeit spielt das Wahrnehmungsmodul im gesamten autonomen Fahrsystem eine entscheidende Rolle Das Steuermodul im autonomen Fahrsystem trifft zeitnahe und korrekte Urteile und Verhaltensentscheidungen. Derzeit sind Autos mit autonomen Fahrfunktionen in der Regel mit einer Vielzahl von Dateninformationssensoren ausgestattet, darunter Rundumsichtkamerasensoren, Lidar-Sensoren und Millimeterwellenradarsensoren, um Informationen in verschiedenen Modalitäten zu sammeln und so genaue Wahrnehmungsaufgaben zu erfüllen. Der auf reinem Sehen basierende BEV-Wahrnehmungsalgorithmus wird von der Industrie aufgrund seiner geringen Hardwarekosten und einfachen Bereitstellung bevorzugt, und seine Ausgabeergebnisse können problemlos auf verschiedene nachgelagerte Aufgaben angewendet werden.

Als sich das Gerücht verbreitete, dass das neue Windows 11 in der Entwicklung sei, war jeder Microsoft-Nutzer neugierig, wie das neue Betriebssystem aussehen und was es bringen würde. Nach Spekulationen ist Windows 11 da. Das Betriebssystem kommt mit neuem Design und funktionalen Änderungen. Zusätzlich zu einigen Ergänzungen werden Funktionen eingestellt und entfernt. Eine der Funktionen, die es in Windows 11 nicht gibt, ist Paint3D. Während es immer noch klassisches Paint bietet, das sich gut für Zeichner, Kritzler und Kritzler eignet, verzichtet es auf Paint3D, das zusätzliche Funktionen bietet, die sich ideal für 3D-Ersteller eignen. Wenn Sie nach zusätzlichen Funktionen suchen, empfehlen wir Autodesk Maya als beste 3D-Designsoftware. wie

ChatGPT hat der KI-Branche eine Portion Hühnerblut injiziert, und alles, was einst undenkbar war, ist heute zur gängigen Praxis geworden. Text-to-3D, das immer weiter voranschreitet, gilt nach Diffusion (Bilder) und GPT (Text) als nächster Hotspot im AIGC-Bereich und hat beispiellose Aufmerksamkeit erhalten. Nein, ein Produkt namens ChatAvatar befindet sich in einer unauffälligen öffentlichen Betaphase, hat schnell über 700.000 Aufrufe und Aufmerksamkeit erregt und wurde auf Spacesoftheweek vorgestellt. △ChatAvatar wird auch die Imageto3D-Technologie unterstützen, die 3D-stilisierte Charaktere aus KI-generierten Einzel-/Mehrperspektive-Originalgemälden generiert. Das von der aktuellen Beta-Version generierte 3D-Modell hat große Beachtung gefunden.

Projektlink vorne geschrieben: https://nianticlabs.github.io/mickey/ Anhand zweier Bilder kann die Kameraposition zwischen ihnen geschätzt werden, indem die Korrespondenz zwischen den Bildern hergestellt wird. Normalerweise handelt es sich bei diesen Entsprechungen um 2D-zu-2D-Entsprechungen, und unsere geschätzten Posen sind maßstabsunabhängig. Einige Anwendungen, wie z. B. Instant Augmented Reality jederzeit und überall, erfordern eine Posenschätzung von Skalenmetriken und sind daher auf externe Tiefenschätzer angewiesen, um die Skalierung wiederherzustellen. In diesem Artikel wird MicKey vorgeschlagen, ein Keypoint-Matching-Prozess, mit dem metrische Korrespondenzen im 3D-Kameraraum vorhergesagt werden können. Durch das Erlernen des 3D-Koordinatenabgleichs zwischen Bildern können wir auf metrische Relativwerte schließen

Für autonome Fahranwendungen ist es letztlich notwendig, 3D-Szenen wahrzunehmen. Der Grund ist einfach. Ein Fahrzeug kann nicht auf der Grundlage der aus einem Bild gewonnenen Wahrnehmungsergebnisse fahren. Selbst ein menschlicher Fahrer kann nicht auf der Grundlage eines Bildes fahren. Da die Entfernung des Objekts und die Tiefeninformationen der Szene nicht in den 2D-Wahrnehmungsergebnissen widergespiegelt werden können, sind diese Informationen der Schlüssel für das autonome Fahrsystem, um korrekte Urteile über die Umgebung zu fällen. Im Allgemeinen werden die Sichtsensoren (z. B. Kameras) autonomer Fahrzeuge über der Karosserie oder am Rückspiegel im Fahrzeuginneren installiert. Egal wo sie ist, was die Kamera erhält, ist die Projektion der realen Welt in der perspektivischen Ansicht (PerspectiveView) (Weltkoordinatensystem zu Bildkoordinatensystem). Diese Sicht ist dem menschlichen visuellen System sehr ähnlich.
