


OmniDrive: Ein Framework zur Ausrichtung großer Modelle auf 3D-Fahraufgaben
Beginnen Sie mit einer neuartigen 3D-MLLM-Architektur, die spärliche Abfragen verwendet, um visuelle Darstellungen in 3D zu heben und zu komprimieren, die dann in das LLM eingespeist werden.
Titel: OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning
Autorenzugehörigkeit: Beijing Institute of Technology, NVIDIA, Huazhong University of Science and Technology
Open-Source-Adresse: GitHub – NVlabs/OmniDrive
Multimodalität Die Entwicklung großer Sprachmodelle (MLLMs) hat zu einem wachsenden Interesse am LLM-basierten autonomen Fahren geführt und nutzt deren leistungsstarke Inferenzfähigkeiten. Die Nutzung der leistungsstarken Argumentationsfähigkeiten von MLLMs zur Verbesserung des Planungsverhaltens ist eine Herausforderung, da sie über das 2D-Argument hinaus ein umfassendes 3D-Situationsbewusstsein erfordern. Um dieser Herausforderung zu begegnen, schlägt diese Arbeit OmniDrive vor, ein umfassendes Framework für eine robuste Ausrichtung zwischen Agentenmodellen und 3D-Fahraufgaben. Das Framework beginnt mit einer neuartigen 3D+MLLM-Architektur, die spärliche Abfragen verwendet, um Beobachtungsdarstellungen in 3D zu heben und zu komprimieren, die dann in das LLM eingespeist werden. Diese abfragebasierte Darstellung ermöglicht es uns, dynamische Objekte und statische Kartenelemente (z. B. Verkehrsstraßen) gemeinsam zu kodieren und so ein prägnantes Weltmodell für die Ausrichtung von Wahrnehmung und Aktion in 3D bereitzustellen. Wir schlagen außerdem einen neuen Benchmark vor, der umfassende Aufgaben zur visuellen Beantwortung von Fragen (VQA) umfasst, einschließlich Szenenbeschreibung, Verkehrsregeln, 3D-Erdung, kontrafaktisches Denken, Entscheidungsfindung und Planung. Umfangreiche Untersuchungen belegen die überlegenen Argumentations- und Planungsfähigkeiten von OmniDrive in komplexen 3D-Szenen.
Netzwerkstruktur
Experimentelle Ergebnisse
Das obige ist der detaillierte Inhalt vonOmniDrive: Ein Framework zur Ausrichtung großer Modelle auf 3D-Fahraufgaben. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



In der Bibliothek, die für den Betrieb der Schwimmpunktnummer in der GO-Sprache verwendet wird, wird die Genauigkeit sichergestellt, wie die Genauigkeit ...

Forscher der Shanghai Jiaotong University, Shanghai Ailab und der chinesischen Universität von Hongkong haben das Open-Source-Projekt zur Visual-RFT (visuelle Verbesserung der Feinabstimmung) gestartet, für das nur eine geringe Datenmenge erforderlich ist, um die Leistung des visuellen Sprachen-Big-Modells (LVLM) signifikant zu verbessern. Visual-RFT kombiniert geschickt die regelbasierte Verstärkungslernansatz von Deepseek-R1 mit dem RFT-Paradigma (Verstärkung der Verstärkung der Verstärkung) und erweitert diesen Ansatz erfolgreich vom Textfeld auf das Gesichtsfeld. Durch die Gestaltung der entsprechenden Regelprämien für Aufgaben wie die visuelle Unterkategorisierung und Objekterkennung überwindet die visuelle RFT die Einschränkungen der Deepseek-R1-Methode, die auf Text, mathematisches Denken und andere Bereiche beschränkt ist und eine neue Möglichkeit für das LVLM-Training bietet. Vis

GitePages statische Website -Bereitstellung fehlgeschlagen: 404 Fehlerbehebung und Auflösung bei der Verwendung von Gitee ...

Welche Bibliotheken in GO werden von großen Unternehmen oder bekannten Open-Source-Projekten entwickelt? Bei der Programmierung in Go begegnen Entwickler häufig auf einige häufige Bedürfnisse, ...

Frage Beschreibung: Wie erhalten Sie die Daten der Versandregion der Überseeversion? Gibt es bereitgestellte Ressourcen? Werden Sie im grenzüberschreitenden E-Commerce oder im globalisierten Geschäft genau ...

Ausführen des H5 -Projekts erfordert die folgenden Schritte: Installation der erforderlichen Tools wie Webserver, Node.js, Entwicklungstools usw. Erstellen Sie eine Entwicklungsumgebung, erstellen Sie Projektordner, initialisieren Sie Projekte und schreiben Sie Code. Starten Sie den Entwicklungsserver und führen Sie den Befehl mit der Befehlszeile aus. Vorschau des Projekts in Ihrem Browser und geben Sie die Entwicklungsserver -URL ein. Veröffentlichen Sie Projekte, optimieren Sie Code, stellen Sie Projekte bereit und richten Sie die Webserverkonfiguration ein.

Analyse und Problemuntersuchung von typten-Routing-Matching-Regeln und Problemuntersuchungen analysiert und beantworten Fragen zu den inkonsistenten Ergebnissen der Registrierung von Typecho-Plug-in-Routing-Registrierung und den tatsächlichen Übereinstimmungsgebnissen ...

Erste Schritte mit Python: Hourglas -Grafikzeichnung und Eingabeüberprüfung In diesem Artikel wird das Problem der Variablendefinition gelöst, das von einem Python -Anfänger im Hourglass -Grafikzeichnungsprogramm auftritt. Code...
