Kommt die 3D-Version von Sora? UMass, MIT und andere schlagen 3D-Weltmodelle vor, und verkörperte intelligente Roboter erreichen neue Meilensteine-KI-php.cn

Inhaltsverzeichnis

3D-VLA-Basismodell

Experimentelle Ergebnisse

Multimodale Zielgenerierung

Heim

Technologie-Peripheriegeräte

Kommt die 3D-Version von Sora? UMass, MIT und andere schlagen 3D-Weltmodelle vor, und verkörperte intelligente Roboter erreichen neue Meilensteine

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 25, 2024 pm 04:10 PM

ai 3d

In neueren Forschungen handelt es sich bei der Eingabe des Vision-Language-Action-Modells (VLA, Vision-Language-Action) im Wesentlichen um 2D-Daten, ohne die allgemeinere 3D-Physik zu integrieren.
Darüber hinaus führen bestehende Modelle eine Aktionsvorhersage durch, indem sie die „direkte Abbildung wahrgenommener Aktionen“ lernen und dabei die Dynamik der Welt und die Beziehung zwischen Aktionen und Dynamik ignorieren.
Im Gegensatz dazu führen Menschen beim Denken Weltmodelle ein, die ihre Vorstellungen von Zukunftsszenarien beschreiben und ihre nächsten Handlungen planen können.
Zu diesem Zweck haben Forscher der University of Massachusetts Amherst, des MIT und anderer Institutionen das 3D-VLA-Modell vorgeschlagen. Durch die Einführung einer neuen Klasse verkörperter Grundmodelle kann es nahtlos mit dem generierten Weltmodell verbunden werden. Denken und Handeln.
Kommt die 3D-Version von Sora? UMass, MIT und andere schlagen 3D-Weltmodelle vor, und verkörperte intelligente Roboter erreichen neue Meilensteine

Projekthomepage: https://vis-www.cs.umass.edu/3dvla/

Papieradresse: https://arxiv.org/abs/2403.09631

Konkret basiert 3D-VLA auf einem 3D-basierten Large Language Model (LLM) und führt eine Reihe von Interaktionstoken ein, um an verkörperten Umgebungen teilzunehmen.

Das Qianchuang-Team trainierte eine Reihe verkörperter Diffusionsmodelle, fügte generative Fähigkeiten in die Modelle ein und ordnete sie in LLM ein, um Zielbilder und Punktwolken vorherzusagen.

Um das 3D-VLA-Modell zu trainieren, haben wir eine große Menge 3D-bezogener Informationen aus dem vorhandenen Roboterdatensatz extrahiert und einen riesigen 3D-Datensatz mit verkörperten Anweisungen erstellt.

Forschungsergebnisse zeigen, dass 3D-VLA bei der Bewältigung von Argumentations-, multimodalen Generierungs- und Planungsaufgaben in verkörperten Umgebungen gute Leistungen erbringt, was seinen potenziellen Anwendungswert in realen Szenarien unterstreicht.

3D Embodied Instruction Tuning Dataset

Aufgrund der milliardenschweren Datensätze im Internet hat VLM eine hervorragende Leistung bei mehreren Aufgaben und Millionen von Videoaktionsdaten gezeigt. Der Satz legt auch den Grundstein für konkretes VLM zur Robotersteuerung .

Allerdings können die meisten aktuellen Datensätze keine ausreichende Tiefe oder 3D-Annotation und präzise Steuerung für Roboteroperationen bieten. Dies erfordert, dass der Datensatz dreidimensionales räumliches Denken und Interaktionsinhalte enthält. Der Mangel an 3D-Informationen macht es für Roboter schwierig, Anweisungen zu verstehen und auszuführen, die räumliches 3D-Begreifen erfordern, wie zum Beispiel „Stellen Sie die am weitesten entfernte Tasse in die mittlere Schublade.“

Kommt die 3D-Version von Sora? UMass, MIT und andere schlagen 3D-Weltmodelle vor, und verkörperte intelligente Roboter erreichen neue Meilensteine

Um diese Lücke zu schließen, haben Forscher einen umfangreichen 3D-Anweisungs-Tuning-Datensatz erstellt, der ausreichend „3D-bezogene Informationen“ und „entsprechende Textanweisungen“ zum Trainieren des Modells bereitstellt.

Die Forscher entwarfen eine Pipeline, um 3D-Sprachaktionspaare aus vorhandenen verkörperten Datensätzen zu extrahieren und so Anmerkungen zu Punktwolken, Tiefenkarten, 3D-Begrenzungsrahmen, 7D-Aktionen des Roboters und Textbeschreibungen zu erhalten.

3D-VLA-Basismodell

3D-VLA ist ein Weltmodell, das für dreidimensionales Denken, Zielgenerierung und Entscheidungsfindung in einer verkörperten Umgebung verwendet wird.

Kommt die 3D-Version von Sora? UMass, MIT und andere schlagen 3D-Weltmodelle vor, und verkörperte intelligente Roboter erreichen neue Meilensteine

Bauen Sie zunächst das Backbone-Netzwerk auf der Grundlage von 3D-LLM auf und verbessern Sie die Fähigkeit des Modells, mit der 3D-Welt zu interagieren, indem Sie eine Reihe von Interaktionstoken hinzufügen. Trainieren Sie dann das Diffusionsmodell und verwenden Sie die Projektion dazu Richten Sie LLM und Diffusionsmodell aus und integrieren Sie Fähigkeiten zur Zielgenerierung in das 3D-VLA Der gesammelte Datensatz erreichte nicht den Milliardenbereich, der für das Training des multimodalen LLM von Grund auf erforderlich ist, und erfordert die Verwendung von Multi-View-Funktionen zur Generierung von 3D-Szenenfunktionen, sodass visuelle Funktionen nahtlos in das vorab trainierte VLM integriert werden können, ohne dass dies erforderlich ist zur Anpassung.

Gleichzeitig umfasst der Trainingsdatensatz von 3D-LLM hauptsächlich Objekte und Innenszenen, die nicht direkt mit den spezifischen Einstellungen übereinstimmen, weshalb sich die Forscher für die Verwendung von BLIP2-PlanT5XL als Vortrainingsmodell entschieden haben.

Entsperren Sie während des Trainingsprozesses die Eingabe- und Ausgabeeinbettungen von Token und die Gewichte von Q-Former.

Interaktionstoken

Um das Verständnis des Modells für 3D-Szenen und Interaktion in der Umgebung zu verbessern, führten die Forscher einen neuen Satz von Interaktionstoken ein

Zuerst wurden der Eingabe Objekttoken hinzugefügt, einschließlich Objektnomen in analysierten Sätzen (wie < ; obj> ein Schokoriegel auf dem Tisch), damit das Modell die manipulierten oder erwähnten Objekte besser erfassen kann.

Zweitens, um räumliche Informationen besser in der Sprache auszudrücken, entwarfen die Forscher eine Reihe von Positions-Tokens , wobei sie sechs Marker in Form von AABB verwendeten, um den dreidimensionalen Begrenzungsrahmen darzustellen.

Drittens wird in das Framework eingeführt, um die Einbettung statischer Szenen einzuschließen: Durch die Kombination von Szenen-Tokens kann 3D-VLA dynamische Szenen verstehen und Verwalten Sie die Eingabe von interlaced 3D-Szenen und Text.

Die Architektur wird durch die Erweiterung des Satzes spezialisierter Marker, die Roboteraktionen darstellen, weiter verbessert. Die Aktion des Roboters verfügt über 7 Freiheitsgrade wie und Jede Aktion getrennt durch

Injizieren Sie Fähigkeiten zur Zielgenerierung

Menschen können den Endzustand der Szene vorab visualisieren, um die Genauigkeit der Aktionsvorhersage oder Entscheidungsfindung zu verbessern, was auch ein Schlüsselaspekt beim Aufbau eines Weltmodells ist In vorläufigen Experimenten stellten die Forscher außerdem fest, dass die Bereitstellung realistischer Endzustände die Argumentations- und Planungsfähigkeiten des Modells verbessern kann.

Aber das Trainieren von MLLM zum Generieren von Bildern, Tiefen- und Punktwolken ist nicht einfach:

Erstens ist das Videodiffusionsmodell nicht auf verkörperte Szenen wie Runway bei der Generierung zukünftiger Frames der „offenen Schublade“ zugeschnitten. In der Szene treten Probleme wie Ansichtsänderungen, Objektverformungen, seltsame Texturersetzungen und Layoutverzerrungen auf.

Und die Integration von Diffusionsmodellen verschiedener Moden in ein einziges Grundmodell ist immer noch ein schwieriges Problem.

Das von den Forschern vorgeschlagene neue Framework trainiert also zunächst das spezifische Diffusionsmodell auf der Grundlage verschiedener Formen wie Bilder, Tiefen- und Punktwolken vor und richtet dann den Decoder des Diffusionsmodells auf den Einbettungsraum von 3D-VLA aus in der Ausrichtungsphase.

Kommt die 3D-Version von Sora? UMass, MIT und andere schlagen 3D-Weltmodelle vor, und verkörperte intelligente Roboter erreichen neue Meilensteine

Experimentelle Ergebnisse

3D-VLA ist ein vielseitiges, 3D-basiertes generatives Weltmodell, das Überlegungen und Lokalisierungen in der 3D-Welt durchführen, sich multimodale Zielinhalte vorstellen und für Roboteroperationen Aktionen generieren kann, Forscher Hauptsächlich wurde 3D-VLA unter drei Aspekten bewertet: 3D-Argumentation und -Lokalisierung, multimodale Zielgenerierung und verkörperte Aktionsplanung.

3D-Inferenz und -Lokalisierung

3D-VLA übertrifft alle 2D-VLM-Methoden bei Aufgaben zum sprachlichen Denken, was die Forscher auf die Nutzung von 3D-Informationen zurückführen, die genauere räumliche Informationen zum Denken liefern.

Kommt die 3D-Version von Sora? UMass, MIT und andere schlagen 3D-Weltmodelle vor, und verkörperte intelligente Roboter erreichen neue Meilensteine

Da der Datensatz außerdem eine Reihe von 3D-Positionierungsanmerkungen enthält, lernt 3D-VLA, relevante Objekte zu lokalisieren, wodurch sich das Modell bei der Argumentation stärker auf Schlüsselobjekte konzentrieren kann.

Die Forscher fanden heraus, dass 3D-LLM bei diesen robotischen Inferenzaufgaben schlecht abschnitt, was die Notwendigkeit der Sammlung und des Trainings auf robotikbezogenen 3D-Datensätzen verdeutlicht.

Kommt die 3D-Version von Sora? UMass, MIT und andere schlagen 3D-Weltmodelle vor, und verkörperte intelligente Roboter erreichen neue Meilensteine

Und 3D-VLA schnitt bei der Lokalisierungsleistung deutlich besser ab als die 2D-Basismethode. Dieses Ergebnis liefert auch überzeugende Beweise für die Wirksamkeit des Annotationsprozesses und hilft dem Modell, leistungsstarke 3D-Positionierungsfunktionen zu erhalten.

Multimodale Zielgenerierung

Im Vergleich zu bestehenden Generierungsmethoden für die Zero-Shot-Übertragung in den Robotikbereich erzielt 3D-VLA in den meisten Metriken eine bessere Leistung, was die Verwendung von „speziell für Robotikanwendungen entwickelten“ Verwendungszwecken bestätigt Entwerfen von Datensätzen zum Trainieren von Weltmodellen.

Kommt die 3D-Version von Sora? UMass, MIT und andere schlagen 3D-Weltmodelle vor, und verkörperte intelligente Roboter erreichen neue Meilensteine

Selbst im direkten Vergleich mit Instruct-P2P* schneidet 3D-VLA durchweg besser ab, und die Ergebnisse zeigen, dass die Integration großer Sprachmodelle in 3D-VLA ein umfassenderes und tieferes Verständnis der Roboterbetriebsanweisungen ermöglicht und dadurch verbessert wird die angestrebte Bildgenerierungsleistung.

Darüber hinaus kann beim Ausschließen vorhergesagter Begrenzungsrahmen aus der Eingabeaufforderung ein leichter Leistungsabfall beobachtet werden, was die Wirksamkeit der Verwendung von vorhergesagten Zwischenrahmen bestätigt, die dem Modell helfen können, die gesamte Szene zu verstehen und die Integration in das Modell zu ermöglichen Den spezifischen Objekten, die in einer gegebenen Anweisung erwähnt werden, wird mehr Aufmerksamkeit gewidmet, was letztendlich seine Fähigkeit verbessert, sich das endgültige Zielbild vorzustellen.

Kommt die 3D-Version von Sora? UMass, MIT und andere schlagen 3D-Weltmodelle vor, und verkörperte intelligente Roboter erreichen neue Meilensteine

Bei einem Vergleich der aus Punktwolken generierten Ergebnisse schnitt 3D-VLA mit zwischenzeitlich vorhergesagten Begrenzungsrahmen am besten ab und bestätigte die Bedeutung der Kombination großer Sprachmodelle und präziser Objektlokalisierung im Kontext des Verständnisses von Anweisungen und Szenen.

Verkörperte Aktionsplanung

3D-VLA übertrifft die Leistung des Basismodells bei den meisten Aufgaben in der RLBench-Aktionsvorhersage und zeigt seine Planungsfähigkeiten.

Kommt die 3D-Version von Sora? UMass, MIT und andere schlagen 3D-Weltmodelle vor, und verkörperte intelligente Roboter erreichen neue Meilensteine

Es ist erwähnenswert, dass das Basismodell die Verwendung historischer Beobachtungen, Objektstatus und aktueller Statusinformationen erfordert, während das 3D-VLA-Modell nur durch Steuerung im offenen Regelkreis ausgeführt wird.

Kommt die 3D-Version von Sora? UMass, MIT und andere schlagen 3D-Weltmodelle vor, und verkörperte intelligente Roboter erreichen neue Meilensteine

Darüber hinaus wurde die Generalisierungsfähigkeit des Modells auch in der Pick-up-Cup-Aufgabe nachgewiesen. Diesen Vorteil führten die Forscher auf die Fähigkeit zur Objektlokalisierung zurück von Interesse und imaginären Zielzuständen liefert umfassende Informationen für die Ableitung von Aktionen.

Das obige ist der detaillierte Inhalt vonKommt die 3D-Version von Sora? UMass, MIT und andere schlagen 3D-Weltmodelle vor, und verkörperte intelligente Roboter erreichen neue Meilensteine. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Will R.E.P.O. Crossplay haben?

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7554

CakePHP-Tutorial

1382

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

CentOS Shutdown -Befehlszeile Apr 14, 2025 pm 09:12 PM

Der Befehl centOS stilldown wird heruntergefahren und die Syntax wird von [Optionen] ausgeführt [Informationen]. Zu den Optionen gehören: -h das System sofort stoppen; -P schalten Sie die Leistung nach dem Herunterfahren aus; -r neu starten; -t Wartezeit. Zeiten können als unmittelbar (jetzt), Minuten (Minuten) oder als bestimmte Zeit (HH: MM) angegeben werden. Hinzugefügten Informationen können in Systemmeldungen angezeigt werden.

Was sind die Backup -Methoden für Gitlab auf CentOS? Apr 14, 2025 pm 05:33 PM

Backup- und Wiederherstellungsrichtlinie von GitLab im Rahmen von CentOS -System Um die Datensicherheit und Wiederherstellung der Daten zu gewährleisten, bietet GitLab on CentOS eine Vielzahl von Sicherungsmethoden. In diesem Artikel werden mehrere gängige Sicherungsmethoden, Konfigurationsparameter und Wiederherstellungsprozesse im Detail eingeführt, um eine vollständige GitLab -Sicherungs- und Wiederherstellungsstrategie aufzubauen. 1. Manuell Backup Verwenden Sie den GitLab-RakegitLab: Backup: Befehl erstellen, um die manuelle Sicherung auszuführen. Dieser Befehl unterstützt wichtige Informationen wie GitLab Repository, Datenbank, Benutzer, Benutzergruppen, Schlüssel und Berechtigungen. Die Standardsicherungsdatei wird im Verzeichnis/var/opt/gitlab/backups gespeichert. Sie können /etc /gitlab ändern

So überprüfen Sie die CentOS -HDFS -Konfiguration Apr 14, 2025 pm 07:21 PM

Vollständige Anleitung zur Überprüfung der HDFS -Konfiguration in CentOS -Systemen In diesem Artikel wird die Konfiguration und den laufenden Status von HDFS auf CentOS -Systemen effektiv überprüft. Die folgenden Schritte helfen Ihnen dabei, das Setup und den Betrieb von HDFs vollständig zu verstehen. Überprüfen Sie die Hadoop -Umgebungsvariable: Stellen Sie zunächst sicher, dass die Hadoop -Umgebungsvariable korrekt eingestellt ist. Führen Sie im Terminal den folgenden Befehl aus, um zu überprüfen, ob Hadoop ordnungsgemäß installiert und konfiguriert ist: Hadoopsion-Check HDFS-Konfigurationsdatei: Die Kernkonfigurationsdatei von HDFS befindet sich im/etc/hadoop/conf/verzeichnis, wobei core-site.xml und hdfs-site.xml von entscheidender Bedeutung sind. verwenden

Wie ist die GPU -Unterstützung für Pytorch bei CentOS? Apr 14, 2025 pm 06:48 PM

Aktivieren Sie die Pytorch -GPU -Beschleunigung am CentOS -System erfordert die Installation von CUDA-, CUDNN- und GPU -Versionen von Pytorch. Die folgenden Schritte führen Sie durch den Prozess: Cuda und Cudnn Installation Bestimmen Sie die CUDA-Version Kompatibilität: Verwenden Sie den Befehl nvidia-smi, um die von Ihrer NVIDIA-Grafikkarte unterstützte CUDA-Version anzuzeigen. Beispielsweise kann Ihre MX450 -Grafikkarte CUDA11.1 oder höher unterstützen. Download und installieren Sie Cudatoolkit: Besuchen Sie die offizielle Website von Nvidiacudatoolkit und laden Sie die entsprechende Version gemäß der höchsten CUDA -Version herunter und installieren Sie sie, die von Ihrer Grafikkarte unterstützt wird. Installieren Sie die Cudnn -Bibliothek:

CentOS installieren MySQL Apr 14, 2025 pm 08:09 PM

Die Installation von MySQL auf CentOS umfasst die folgenden Schritte: Hinzufügen der entsprechenden MySQL Yum -Quelle. Führen Sie den Befehl mySQL-server aus, um den MySQL-Server zu installieren. Verwenden Sie den Befehl mySQL_SECURE_INSTALLATION, um Sicherheitseinstellungen vorzunehmen, z. B. das Festlegen des Stammbenutzerkennworts. Passen Sie die MySQL -Konfigurationsdatei nach Bedarf an. Tune MySQL -Parameter und optimieren Sie Datenbanken für die Leistung.

Detaillierte Erklärung des Docker -Prinzips Apr 14, 2025 pm 11:57 PM

Docker verwendet Linux -Kernel -Funktionen, um eine effiziente und isolierte Anwendungsumgebung zu bieten. Sein Arbeitsprinzip lautet wie folgt: 1. Der Spiegel wird als schreibgeschützte Vorlage verwendet, die alles enthält, was Sie für die Ausführung der Anwendung benötigen. 2. Das Union File System (UnionFS) stapelt mehrere Dateisysteme, speichert nur die Unterschiede, speichert Platz und beschleunigt. 3. Der Daemon verwaltet die Spiegel und Container, und der Kunde verwendet sie für die Interaktion. 4. Namespaces und CGroups implementieren Container -Isolation und Ressourcenbeschränkungen; 5. Mehrere Netzwerkmodi unterstützen die Containerverbindung. Nur wenn Sie diese Kernkonzepte verstehen, können Sie Docker besser nutzen.

CentOS8 startet SSH Apr 14, 2025 pm 09:00 PM

Der Befehl zum Neustart des SSH -Dienstes lautet: SystemCTL Neustart SSHD. Detaillierte Schritte: 1. Zugriff auf das Terminal und eine Verbindung zum Server; 2. Geben Sie den Befehl ein: SystemCTL Neustart SSHD; 1. Überprüfen Sie den Dienststatus: SystemCTL -Status SSHD.

Wie man eine verteilte Schulung von Pytorch auf CentOS betreibt Apr 14, 2025 pm 06:36 PM

Pytorch Distributed Training on CentOS -System erfordert die folgenden Schritte: Pytorch -Installation: Die Prämisse ist, dass Python und PIP im CentOS -System installiert sind. Nehmen Sie abhängig von Ihrer CUDA -Version den entsprechenden Installationsbefehl von der offiziellen Pytorch -Website ab. Für CPU-Schulungen können Sie den folgenden Befehl verwenden: PipinstallTorChTorChVisionTorChaudio Wenn Sie GPU-Unterstützung benötigen, stellen Sie sicher, dass die entsprechende Version von CUDA und CUDNN installiert ist und die entsprechende Pytorch-Version für die Installation verwenden. Konfiguration der verteilten Umgebung: Verteiltes Training erfordert in der Regel mehrere Maschinen oder mehrere Maschinen-Mehrfach-GPUs. Ort

See all articles