Beginnen Sie mit einer neuartigen 3D-MLLM-Architektur, die spärliche Abfragen verwendet, um visuelle Darstellungen in 3D zu heben und zu komprimieren, die dann in das LLM eingespeist werden.
Titel: OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning
Autorenzugehörigkeit: Beijing Institute of Technology, NVIDIA, Huazhong University of Science and Technology
Open-Source-Adresse: GitHub – NVlabs/OmniDrive
Multimodalität Die Entwicklung großer Sprachmodelle (MLLMs) hat zu einem wachsenden Interesse am LLM-basierten autonomen Fahren geführt und nutzt deren leistungsstarke Inferenzfähigkeiten. Die Nutzung der leistungsstarken Argumentationsfähigkeiten von MLLMs zur Verbesserung des Planungsverhaltens ist eine Herausforderung, da sie über das 2D-Argument hinaus ein umfassendes 3D-Situationsbewusstsein erfordern. Um dieser Herausforderung zu begegnen, schlägt diese Arbeit OmniDrive vor, ein umfassendes Framework für eine robuste Ausrichtung zwischen Agentenmodellen und 3D-Fahraufgaben. Das Framework beginnt mit einer neuartigen 3D+MLLM-Architektur, die spärliche Abfragen verwendet, um Beobachtungsdarstellungen in 3D zu heben und zu komprimieren, die dann in das LLM eingespeist werden. Diese abfragebasierte Darstellung ermöglicht es uns, dynamische Objekte und statische Kartenelemente (z. B. Verkehrsstraßen) gemeinsam zu kodieren und so ein prägnantes Weltmodell für die Ausrichtung von Wahrnehmung und Aktion in 3D bereitzustellen. Wir schlagen außerdem einen neuen Benchmark vor, der umfassende Aufgaben zur visuellen Beantwortung von Fragen (VQA) umfasst, einschließlich Szenenbeschreibung, Verkehrsregeln, 3D-Erdung, kontrafaktisches Denken, Entscheidungsfindung und Planung. Umfangreiche Untersuchungen belegen die überlegenen Argumentations- und Planungsfähigkeiten von OmniDrive in komplexen 3D-Szenen.
Das obige ist der detaillierte Inhalt vonOmniDrive: Ein Framework zur Ausrichtung großer Modelle auf 3D-Fahraufgaben. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!