Offenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung-KI-php.cn

Inhaltsverzeichnis

Text- und Bildgenerierung basierend auf 3D-Formen

Heim

Technologie-Peripheriegeräte

Offenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 04, 2023 pm 03:04 PM

ai 检索

Geben Sie die dreidimensionale Form eines Schaukelstuhls und eines Pferdes ein. Was können Sie bekommen?

Offenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung

# 🎜 🎜#

Holzkarren plus Pferd? Eine Kutsche und ein Elektropferd besorgen; eine Banane und ein Segelboot? Ein Bananensegelboot kaufen; Eier plus Liegestühle? Holen Sie sich den Eierstuhl.

Offenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung

Forscher der UCSD, der Shanghai Jiao Tong University und Qualcomm-Teams schlugen das neueste dreidimensionale Darstellungsmodell OpenShape vor Dadurch können dreidimensionale Formen dargestellt werden. Das Verständnis einer offenen Welt wird möglich.

Papieradresse: https://arxiv.org /pdf/2305.10764.pdf
Projekthomepage: https ://colin97.github.io/OpenShape/
Interaktive Demo: https://huggingface.co/spaces/OpenShape/openshape-demo
Codeadresse: https://github.com/Colin97/OpenShape_code

By in more OpenShape ist ein nativer Encoder, der 3D-Punktwolken anhand modaler Daten (Punktwolke – Text – Bild) lernt. Er erstellt einen 3D-Formdarstellungsraum und richtet ihn an den Text- und Bildräumen von CLIP aus. Dank umfangreicher und vielfältiger 3D-Vorschulung erreicht OpenShape erstmals ein offenes Verständnis von 3D-Formen und unterstützt die Zero-Shot-3D-Formklassifizierung, den multimodalen 3D-Formabruf (Text-/Bild-/Punktwolkeneingabe) und und Untertitel von 3D-Punktwolken. Cross-modale Aufgaben wie Bildgenerierung und 3D-Punktwolken-basierte Bildgenerierung.

Dreidimensionale Form-Zero-Shot-Klassifizierung

Offenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung

#🎜 🎜#OpenShape Unterstützt Zero-Shot-3D-Formklassifizierung. Ohne zusätzliches Training oder Feinabstimmung erreicht OpenShape eine Top1-Genauigkeit von 85,3 % beim häufig verwendeten ModelNet40-Benchmark (einschließlich 40 gemeinsamer Kategorien), übertrifft bestehende Zero-Shot-Methoden um 24 Prozentpunkte und erreicht eine Leistung, die mit einigen vollständig überwachten Methoden vergleichbar ist das erste Mal.

Die Top3- und Top5-Genauigkeit von OpenShape auf ModelNet40 erreichte 96,5 % bzw. 98,0 %. Im Gegensatz zu bestehenden Methoden, die hauptsächlich auf einige gängige Objektkategorien beschränkt sind, ist OpenShape in der Lage, eine breite Palette von Open-World-Kategorien zu kategorisieren. Beim Objaverse-LVIS-Benchmark (der 1156 Objektkategorien umfasst) erreicht OpenShape eine Top1-Genauigkeit von 46,8 % und übertrifft damit die höchste Genauigkeit von nur 6,2 % der bestehenden Zero-Shot-Methoden bei weitem. Diese Ergebnisse zeigen, dass OpenShape in der Lage ist, 3D-Formen in der offenen Welt effektiv zu erkennen.

Multimodaler 3D-Formabruf

Mit der multimodalen Darstellung von OpenShape können Benutzer den 3D-Abruf von Bild-, Text- oder Punktwolkeneingaben durchführen. Formabruf. Untersuchen Sie den Abruf von 3D-Formen aus integrierten Datensätzen, indem Sie die Kosinusähnlichkeit zwischen der Eingabedarstellung und der 3D-Formdarstellung berechnen und kNN ermitteln. #🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜##Bildeingabe Dreidimensionale Formsuche Offenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung

Das obige Bild zeigt das Eingabebild und zwei abgerufene 3D-Formen.

Offenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung

Dreidimensionaler Formabruf für die Texteingabe

Die obige Abbildung zeigt den Eingabetext und die abgerufene dreidimensionale Form. OpenShape lernt eine breite Palette visueller und semantischer Konzepte und ermöglicht so eine feinkörnige Unterkategorie- (erste zwei Zeilen) und Attributsteuerung (letzte zwei Zeilen, wie z. B. Farbe, Form, Stil und deren Kombinationen).

Offenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung

3D-Formabruf aus der 3D-Punktwolkeneingabe

Die obige Abbildung zeigt die eingegebene 3D-Punktwolke und zwei abgerufene 3D-Formen.

Offenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung

3D-Formabruf mit zwei Eingaben

Das obige Bild verwendet zwei 3D-Formen als Eingabe und verwendet deren OpenShape-Darstellung, um die drei gleichzeitig abzurufen, die beiden Eingaben am nächsten kommen - dimensionale Form. Die abgerufene Form kombiniert geschickt semantische und geometrische Elemente aus beiden Eingabeformen.

Text- und Bildgenerierung basierend auf 3D-Formen

Da die 3D-Formdarstellung von OpenShape auf den Bild- und Textdarstellungsraum von CLIP ausgerichtet ist, können sie mit vielen CLIP-basierten abgeleiteten Modellen kombiniert werden, um eine Vielzahl von modalübergreifenden Anwendungen zu unterstützen.

Offenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung

Untertitelgenerierung für 3D-Punktwolken

Durch die Kombination mit dem vorgefertigten Bilduntertitelmodell (ClipCap) implementiert OpenShape die Untertitelgenerierung für 3D-Punktwolken.

Offenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung

Bildgenerierung basierend auf 3D-Punktwolken

Durch die Kombination mit dem vorgefertigten Text-zu-Bild-Diffusionsmodell (Stable unCLIP) implementiert OpenShape die Bildgenerierung basierend auf 3D-Punktwolken (unterstützte optionale Textaufforderung).

... 3D Ein nativer Encoder, der dauert eine 3D-Punktwolke als Eingabe, um eine Darstellung der 3D-Form zu extrahieren. Im Anschluss an frühere Arbeiten nutzen wir multimodales kontrastives Lernen, um uns an den Bild- und Textdarstellungsräumen von CLIP auszurichten. Im Gegensatz zu früheren Arbeiten zielt OpenShape darauf ab, einen allgemeineren und skalierbareren gemeinsamen Darstellungsraum zu erlernen. Der Schwerpunkt der Forschung liegt hauptsächlich darauf, den Umfang des 3D-Darstellungslernens zu erweitern und die entsprechenden Herausforderungen anzugehen, um das 3D-Formverständnis in der offenen Welt wirklich zu verwirklichen.

Offenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung

Integration mehrerer 3D-Formdatensätze: Da der Umfang und die Vielfalt der Trainingsdaten eine entscheidende Rolle beim Erlernen großräumiger 3D-Formdarstellungen spielen, wurde die Forschung durch die Integration von vier der derzeit größten öffentlichen 3D-Formdatensätze durchgeführt. Wie in der folgenden Abbildung dargestellt, enthalten die untersuchten Trainingsdaten 876.000 Trainingsformen. Unter den vier Datensätzen enthalten ShapeNetCore, 3D-FUTURE und ABO hochwertige, vom Menschen verifizierte 3D-Formen, decken jedoch nur eine begrenzte Anzahl von Formen und Dutzende Kategorien ab. Der Objaverse-Datensatz ist ein kürzlich veröffentlichter 3D-Datensatz, der deutlich mehr 3D-Formen enthält und eine vielfältigere Objektklasse abdeckt. Allerdings werden die Formen in Objaverse hauptsächlich von Online-Benutzern hochgeladen und nicht manuell überprüft. Daher ist die Qualität ungleichmäßig und die Verteilung äußerst unausgewogen, was eine weitere Verarbeitung erfordert.

Offenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung

Textfilterung und -anreicherung: Studie ergab, dass die Anwendung von kontrastivem Lernen nur zwischen 3D-Formen und 2D-Bildern nicht ausreicht, um die Ausrichtung von 3D-Formen und Texträumen voranzutreiben, selbst wenn dies an großen Datensätzen durchgeführt wird Das Gleiche gilt für das Training. Untersuchungen gehen davon aus, dass dies auf die inhärente Domänenlücke in den Sprach- und Bilddarstellungsräumen von CLIP zurückzuführen ist. Daher muss die Forschung 3D-Formen explizit am Text ausrichten. Bei Textanmerkungen aus Original-3D-Datensätzen treten jedoch häufig Probleme wie fehlende, falsche oder grobe und einzelne Inhalte auf. Zu diesem Zweck schlägt dieses Papier drei Strategien zum Filtern und Anreichern von Text vor, um die Qualität von Textanmerkungen zu verbessern: Textfilterung mit GPT-4, Untertitelgenerierung und Bildabruf von 2D-Renderings von 3D-Modellen. Die Studie schlägt drei Strategien vor, um verrauschten Text in Originaldatensätzen automatisch zu filtern und anzureichern. ?? Im oberen rechten Teil werden die Bildunterschriften der beiden Untertitelungsmodelle angezeigt, während im unteren rechten Teil die abgerufenen Bilder und der entsprechende Text angezeigt werden.

Erweitern Sie das dreidimensionale Backbone-Netzwerk.

Da frühere Arbeiten zum Lernen von 3D-Punktwolken hauptsächlich auf kleine 3D-Datensätze wie ShapeNet abzielten, sind diese Backbone-Netzwerke möglicherweise nicht direkt auf unser groß angelegtes 3D-Training anwendbar und der Umfang des Backbone-Netzwerks muss entsprechend erweitert werden. Die Studie ergab, dass verschiedene 3D-Backbone-Netzwerke unterschiedliche Verhaltensweisen und Skalierbarkeit aufweisen, wenn sie mit Datensätzen unterschiedlicher Größe trainiert werden. Unter diesen weisen PointBERT basierend auf Transformer und SparseConv basierend auf dreidimensionaler Faltung eine leistungsfähigere Leistung und Skalierbarkeit auf und wurden daher als dreidimensionales Backbone-Netzwerk ausgewählt.

Offenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung

Vergleich der Leistung und Skalierbarkeit verschiedener Backbone-Netzwerke beim Skalieren der Größe des 3D-Backbone-Modells auf dem integrierten Datensatz.

Offenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung

Hartes Negativbeispiel-Mining: Der Ensemble-Datensatz dieser Studie weist ein hohes Maß an Klassenungleichgewicht auf. Einige gängige Kategorien wie Architektur können Zehntausende Formen umfassen, während viele andere Kategorien wie Walrosse und Geldbörsen mit nur ein paar Dutzend oder sogar weniger Formen unterrepräsentiert sind. Wenn für kontrastives Lernen Stapel zufällig erstellt werden, ist es daher unwahrscheinlich, dass Formen aus zwei leicht zu verwechselnden Kategorien (z. B. Äpfel und Kirschen) im selben Stapel erscheinen, um kontrastiert zu werden. Zu diesem Zweck schlägt dieses Papier eine Offline-Strategie zum Mining schwieriger Negativbeispiele vor, um die Trainingseffizienz und -leistung zu verbessern. Willkommen, die interaktive Demo auf HuggingFace auszuprobieren.

Das obige ist der detaillierte Inhalt vonOffenes Verständnis von 3D-Punktwolken, Klassifizierung, Abruf, Untertiteln und Bildgenerierung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7514

CakePHP-Tutorial

1378

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

So implementieren Sie die Dateisortierung nach Debian Readdir Apr 13, 2025 am 09:06 AM

In Debian -Systemen wird die Readdir -Funktion zum Lesen des Verzeichnisinhalts verwendet, aber die Reihenfolge, in der sie zurückgibt, ist nicht vordefiniert. Um Dateien in einem Verzeichnis zu sortieren, müssen Sie zuerst alle Dateien lesen und dann mit der QSORT -Funktion sortieren. Der folgende Code zeigt, wie Verzeichnisdateien mithilfe von Readdir und QSORT in Debian System sortiert werden:#include#include#include#include // benutzerdefinierte Vergleichsfunktion, verwendet für QSortIntCompare (constvoid*a, constvoid*b) {rettrcmp (*(*(*(

So optimieren Sie die Leistung von Debian Readdir Apr 13, 2025 am 08:48 AM

In Debian -Systemen werden Readdir -Systemaufrufe zum Lesen des Verzeichnisinhalts verwendet. Wenn seine Leistung nicht gut ist, probieren Sie die folgende Optimierungsstrategie aus: Vereinfachen Sie die Anzahl der Verzeichnisdateien: Teilen Sie große Verzeichnisse so weit wie möglich in mehrere kleine Verzeichnisse auf und reduzieren Sie die Anzahl der gemäß Readdir -Anrufe verarbeiteten Elemente. Aktivieren Sie den Verzeichnis -Inhalt Caching: Erstellen Sie einen Cache -Mechanismus, aktualisieren Sie den Cache regelmäßig oder bei Änderungen des Verzeichnisinhalts und reduzieren Sie häufige Aufrufe an Readdir. Speicher -Caches (wie Memcached oder Redis) oder lokale Caches (wie Dateien oder Datenbanken) können berücksichtigt werden. Nehmen Sie eine effiziente Datenstruktur an: Wenn Sie das Verzeichnis -Traversal selbst implementieren, wählen Sie effizientere Datenstrukturen (z.

So setzen Sie die Debian Apache -Protokollebene fest Apr 13, 2025 am 08:33 AM

In diesem Artikel wird beschrieben, wie Sie die Protokollierungsstufe des Apacheweb -Servers im Debian -System anpassen. Durch Ändern der Konfigurationsdatei können Sie die ausführliche Ebene der von Apache aufgezeichneten Protokollinformationen steuern. Methode 1: Ändern Sie die Hauptkonfigurationsdatei, um die Konfigurationsdatei zu finden: Die Konfigurationsdatei von Apache2.x befindet sich normalerweise im Verzeichnis/etc/apache2/. Der Dateiname kann je nach Installationsmethode Apache2.conf oder httpd.conf sein. Konfigurationsdatei bearbeiten: Öffnen Sie die Konfigurationsdatei mit Stammberechtigungen mit einem Texteditor (z. B. Nano): Sudonano/etc/apache2/apache2.conf

Wie Debian Readdir sich in andere Tools integriert Apr 13, 2025 am 09:42 AM

Die Readdir -Funktion im Debian -System ist ein Systemaufruf, der zum Lesen des Verzeichnisgehalts verwendet wird und häufig in der C -Programmierung verwendet wird. In diesem Artikel wird erläutert, wie Readdir in andere Tools integriert wird, um seine Funktionalität zu verbessern. Methode 1: Kombinieren Sie C -Sprachprogramm und Pipeline zuerst ein C -Programm, um die Funktion der Readdir aufzurufen und das Ergebnis auszugeben:#include#include#includeIntmain (intargc, char*argv []) {Dir*Dir; structDirent*Eintrag; if (argc! = 2) {{

Wie Debian OpenSSL verhindert, dass Mann-in-the-Middle-Angriffe Apr 13, 2025 am 10:30 AM

In Debian Systems ist OpenSSL eine wichtige Bibliothek für Verschlüsselung, Entschlüsselung und Zertifikatverwaltung. Um einen Mann-in-the-Middle-Angriff (MITM) zu verhindern, können folgende Maßnahmen ergriffen werden: Verwenden Sie HTTPS: Stellen Sie sicher, dass alle Netzwerkanforderungen das HTTPS-Protokoll anstelle von HTTP verwenden. HTTPS verwendet TLS (Transport Layer Security Protocol), um Kommunikationsdaten zu verschlüsseln, um sicherzustellen, dass die Daten während der Übertragung nicht gestohlen oder manipuliert werden. Überprüfen Sie das Serverzertifikat: Überprüfen Sie das Serverzertifikat im Client manuell, um sicherzustellen, dass es vertrauenswürdig ist. Der Server kann manuell durch die Delegate -Methode der URLSession überprüft werden

Debian Mail Server Firewall -Konfigurationstipps Apr 13, 2025 am 11:42 AM

Das Konfigurieren der Firewall eines Debian -Mailservers ist ein wichtiger Schritt zur Gewährleistung der Serversicherheit. Im Folgenden sind mehrere häufig verwendete Firewall -Konfigurationsmethoden, einschließlich der Verwendung von Iptables und Firewalld. Verwenden Sie Iptables, um Firewall so zu konfigurieren, dass Iptables (falls bereits installiert) installiert werden:

Wie man Debian Syslog lernt Apr 13, 2025 am 11:51 AM

In diesem Leitfaden werden Sie erfahren, wie Sie Syslog in Debian -Systemen verwenden. Syslog ist ein Schlüsseldienst in Linux -Systemen für Protokollierungssysteme und Anwendungsprotokollnachrichten. Es hilft den Administratoren, die Systemaktivitäten zu überwachen und zu analysieren, um Probleme schnell zu identifizieren und zu lösen. 1. Grundkenntnisse über syslog Die Kernfunktionen von Syslog umfassen: zentrales Sammeln und Verwalten von Protokollnachrichten; Unterstützung mehrerer Protokoll -Ausgabesformate und Zielorte (z. B. Dateien oder Netzwerke); Bereitstellung von Echtzeit-Protokoll- und Filterfunktionen. 2. Installieren und Konfigurieren von Syslog (mit Rsyslog) Das Debian -System verwendet standardmäßig Rsyslog. Sie können es mit dem folgenden Befehl installieren: sudoaptupdatesud

Debian Mail Server SSL -Zertifikat -Installationsmethode Apr 13, 2025 am 11:39 AM

Die Schritte zur Installation eines SSL -Zertifikats auf dem Debian Mail -Server sind wie folgt: 1. Installieren Sie zuerst das OpenSSL -Toolkit und stellen Sie sicher, dass das OpenSSL -Toolkit bereits in Ihrem System installiert ist. Wenn nicht installiert, können Sie den folgenden Befehl installieren: sudoapt-getupdatesudoapt-getinstallopenssl2. Generieren Sie den privaten Schlüssel und die Zertifikatanforderung als nächst

See all articles