


OmniDrive: Ein Framework zur Ausrichtung großer Modelle auf 3D-Fahraufgaben
Beginnen Sie mit einer neuartigen 3D-MLLM-Architektur, die spärliche Abfragen verwendet, um visuelle Darstellungen in 3D zu heben und zu komprimieren, die dann in das LLM eingespeist werden.
Titel: OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning
Autorenzugehörigkeit: Beijing Institute of Technology, NVIDIA, Huazhong University of Science and Technology
Open-Source-Adresse: GitHub – NVlabs/OmniDrive
Multimodalität Die Entwicklung großer Sprachmodelle (MLLMs) hat zu einem wachsenden Interesse am LLM-basierten autonomen Fahren geführt und nutzt deren leistungsstarke Inferenzfähigkeiten. Die Nutzung der leistungsstarken Argumentationsfähigkeiten von MLLMs zur Verbesserung des Planungsverhaltens ist eine Herausforderung, da sie über das 2D-Argument hinaus ein umfassendes 3D-Situationsbewusstsein erfordern. Um dieser Herausforderung zu begegnen, schlägt diese Arbeit OmniDrive vor, ein umfassendes Framework für eine robuste Ausrichtung zwischen Agentenmodellen und 3D-Fahraufgaben. Das Framework beginnt mit einer neuartigen 3D+MLLM-Architektur, die spärliche Abfragen verwendet, um Beobachtungsdarstellungen in 3D zu heben und zu komprimieren, die dann in das LLM eingespeist werden. Diese abfragebasierte Darstellung ermöglicht es uns, dynamische Objekte und statische Kartenelemente (z. B. Verkehrsstraßen) gemeinsam zu kodieren und so ein prägnantes Weltmodell für die Ausrichtung von Wahrnehmung und Aktion in 3D bereitzustellen. Wir schlagen außerdem einen neuen Benchmark vor, der umfassende Aufgaben zur visuellen Beantwortung von Fragen (VQA) umfasst, einschließlich Szenenbeschreibung, Verkehrsregeln, 3D-Erdung, kontrafaktisches Denken, Entscheidungsfindung und Planung. Umfangreiche Untersuchungen belegen die überlegenen Argumentations- und Planungsfähigkeiten von OmniDrive in komplexen 3D-Szenen.
Netzwerkstruktur
Experimentelle Ergebnisse
Das obige ist der detaillierte Inhalt vonOmniDrive: Ein Framework zur Ausrichtung großer Modelle auf 3D-Fahraufgaben. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



In der Bibliothek, die für den Betrieb der Schwimmpunktnummer in der GO-Sprache verwendet wird, wird die Genauigkeit sichergestellt, wie die Genauigkeit ...

GitePages statische Website -Bereitstellung fehlgeschlagen: 404 Fehlerbehebung und Auflösung bei der Verwendung von Gitee ...

Ausführen des H5 -Projekts erfordert die folgenden Schritte: Installation der erforderlichen Tools wie Webserver, Node.js, Entwicklungstools usw. Erstellen Sie eine Entwicklungsumgebung, erstellen Sie Projektordner, initialisieren Sie Projekte und schreiben Sie Code. Starten Sie den Entwicklungsserver und führen Sie den Befehl mit der Befehlszeile aus. Vorschau des Projekts in Ihrem Browser und geben Sie die Entwicklungsserver -URL ein. Veröffentlichen Sie Projekte, optimieren Sie Code, stellen Sie Projekte bereit und richten Sie die Webserverkonfiguration ein.

Welche Bibliotheken in GO werden von großen Unternehmen oder bekannten Open-Source-Projekten entwickelt? Bei der Programmierung in Go begegnen Entwickler häufig auf einige häufige Bedürfnisse, ...

Wie kann man im Beegoorm -Framework die mit dem Modell zugeordnete Datenbank angeben? In vielen BeEGO -Projekten müssen mehrere Datenbanken gleichzeitig betrieben werden. Bei Verwendung von BeEGO ...

Das Problem der Verwendung von RETISTREAM zur Implementierung von Nachrichtenwarteschlangen in der GO -Sprache besteht darin, die Go -Sprache und Redis zu verwenden ...

Die H5 -Seite muss aufgrund von Faktoren wie Code -Schwachstellen, Browserkompatibilität, Leistungsoptimierung, Sicherheitsaktualisierungen und Verbesserungen der Benutzererfahrung kontinuierlich aufrechterhalten werden. Zu den effektiven Wartungsmethoden gehören das Erstellen eines vollständigen Testsystems, die Verwendung von Versionstools für Versionskontrolle, die regelmäßige Überwachung der Seitenleistung, das Sammeln von Benutzern und die Formulierung von Wartungsplänen.

Frage Beschreibung: Wie erhalten Sie die Daten der Versandregion der Überseeversion? Gibt es bereitgestellte Ressourcen? Werden Sie im grenzüberschreitenden E-Commerce oder im globalisierten Geschäft genau ...
