Mit dem Aufkommen großer Sprachmodelle (LLM) und visueller Basismodelle (VFM) wird erwartet, dass multimodale künstliche Intelligenzsysteme mit großen Modellen die reale Welt umfassend wahrnehmen und Entscheidungen wie Menschen treffen können. In den letzten Monaten hat LLM im Bereich der autonomen Fahrforschung große Aufmerksamkeit erregt. Trotz des großen Potenzials von LLM gibt es immer noch wichtige Herausforderungen, Chancen und zukünftige Forschungsrichtungen bei Fahrsystemen, die derzeit nicht detailliert erläutert werden.
In diesem Artikel wurden Untersuchungen von Tencent Maps, Purdue University, UIUC und University of Virginia Personnel durchgeführt systematische Forschung auf diesem Gebiet. Diese Studie stellt zunächst den Hintergrund multimodaler großer Sprachmodelle (MLLM), den Fortschritt der Entwicklung multimodaler Modelle mithilfe von LLM und einen Rückblick auf die Geschichte des autonomen Fahrens vor. Anschließend bietet die Studie einen Überblick über bestehende MLLM-Tools für Fahr-, Verkehrs- und Kartensysteme sowie bestehende Datensätze. Die Studie fasst auch verwandte Arbeiten des 1. WACV-Workshops zu großen Sprach- und Bildmodellen für autonomes Fahren (LLVM-AD) zusammen, dem ersten Workshop zur Anwendung von LLM beim autonomen Fahren. Um die Entwicklung dieses Bereichs weiter voranzutreiben, werden in dieser Studie auch die Anwendung von MLLM in autonomen Fahrsystemen und einige wichtige Probleme erörtert, die von Wissenschaft und Industrie gelöst werden müssen.
Um eine Brücke zwischen autonomem Fahren und LLVM zu schlagen, organisierten relevante Forscher den ersten Large Language and Vision Model Autonomous Driving Workshop (LLVM-AD) auf der IEEE/CVF Winter Conference on Computer Vision Applications (WACV) 2024. Ziel dieses Workshops ist es, die Zusammenarbeit zwischen akademischen Forschern und Fachleuten aus der Industrie zu verbessern, um die Möglichkeiten und Herausforderungen der Implementierung multimodaler groß angelegter Sprachmodelle im Bereich des autonomen Fahrens zu erkunden. LLVM-AD wird die Entwicklung nachfolgender Open-Source-Datensätze zum Verständnis tatsächlicher Verkehrssprache weiter vorantreiben
Der erste WACV Large-scale Language and Vision Model Autonomous Driving Workshop (LLVM-AD) nahm insgesamt neun Beiträge an. Einige dieser Arbeiten drehen sich um multimodale große Sprachmodelle im autonomen Fahren und konzentrieren sich auf die Integration von LLM in die Benutzer-Fahrzeug-Interaktion, Bewegungsplanung und Fahrzeugsteuerung. In mehreren Artikeln werden auch neue Anwendungen von LLM für menschenähnliche Interaktion und Entscheidungsfindung in autonomen Fahrzeugen untersucht. Beispielsweise untersuchen „Imitating Human Driving“ und „Driving by Language“ die Interpretation und Argumentation von LLM in komplexen Fahrszenarien sowie Rahmenbedingungen für die Nachahmung menschlichen Verhaltens. Darüber hinaus legt „Menschzentrierte autonome Systeme und LLM“ Wert darauf, den Benutzer in den Mittelpunkt des LLM-Designs zu stellen und LLM zur Interpretation von Benutzeranweisungen zu verwenden. Dieser Ansatz stellt einen wichtigen Wandel hin zu menschenzentrierten autonomen Systemen dar. Zusätzlich zum kombinierten LLM behandelte der Workshop auch einige reine Bildverarbeitungs- und Datenverarbeitungsmethoden. Darüber hinaus wurden im Workshop innovative Datenverarbeitungs- und Auswertungsmethoden vorgestellt. NuScenes-MQA führt beispielsweise ein neues Annotationsschema für autonome Fahrdatensätze ein. Zusammengenommen zeigen diese Arbeiten Fortschritte bei der Integration von Sprachmodellen und fortschrittlichen Techniken in das autonome Fahren und ebnen den Weg für intuitivere, effizientere und menschzentrierte autonome Fahrzeuge
Für zukünftige Entwicklungen schlägt diese Studie die folgenden Forschungsrichtungen vor:
Der Inhalt, der neu geschrieben werden muss, ist: 1. Neue Datensätze für multimodale große Sprachmodelle beim autonomen Fahren
Obwohl große Sprachmodelle in der Sprache verwendet werden, gab es Erfolge beim Verständnis, aber auch Herausforderungen Wir bleiben dabei, es auf das autonome Fahren anzuwenden. Dies liegt daran, dass diese Modelle Eingaben aus verschiedenen Modalitäten, wie Panoramabildern, 3D-Punktwolken und hochpräzisen Karten, integrieren und verstehen müssen. Aufgrund der derzeitigen Einschränkungen in Bezug auf Datengröße und -qualität können die vorhandenen Datensätze diese Herausforderungen nicht vollständig bewältigen. Darüber hinaus bieten visuelle Sprachdatensätze, die aus frühen Open-Source-Datensätzen wie NuScenes annotiert wurden, möglicherweise keine solide Grundlage für das visuelle Sprachverständnis in Fahrszenarien. Daher besteht ein dringender Bedarf an neuen, umfangreichen Datensätzen, die ein breites Spektrum an Verkehrs- und Fahrszenarien abdecken, um das Long-Tail-Problem (Ungleichgewicht) früherer Datensatzverteilungen zu beheben und die Leistung dieser Modelle effektiv zu testen und zu verbessern autonome Fahranwendungen.
2. Hardwareunterstützung für große Sprachmodelle im autonomen Fahren erforderlich
Unterschiedliche Funktionen in autonomen Fahrzeugen haben unterschiedliche Hardwareanforderungen. Der Einsatz von LLM in einem Fahrzeug zur Fahrplanung oder zur Beteiligung an der Fahrzeugsteuerung erfordert Echtzeitverarbeitung und geringe Latenz, um die Sicherheit zu gewährleisten, was den Rechenaufwand erhöht und sich auf den Stromverbrauch auswirkt. Wird LLM in der Cloud eingesetzt, wird die Bandbreite für den Datenaustausch zu einem weiteren kritischen Sicherheitsfaktor. Im Gegensatz dazu erfordert die Verwendung von LLM für die Navigationsplanung oder die Analyse von Befehlen, die nichts mit dem Fahren zu tun haben (z. B. Musikwiedergabe im Auto), kein hohes Abfragevolumen und keine Echtzeitleistung, sodass Remote-Dienste eine praktikable Option sind. Zukünftig kann LLM im autonomen Fahren durch Wissensdestillation komprimiert werden, um den Rechenaufwand und die Latenz zu reduzieren. In diesem Bereich gibt es noch viel Raum für Entwicklung.
3. Verwenden Sie große Sprachmodelle, um hochpräzise Karten zu verstehen.
Hochpräzise Karten spielen eine wichtige Rolle in der autonomen Fahrzeugtechnologie, da sie grundlegende Informationen über die physische Umgebung liefern, in der das Fahrzeug betrieben wird. Die semantische Kartenebene in HD-Karten ist wichtig, da sie die Bedeutung und Kontextinformationen der physischen Umgebung erfasst. Um diese Informationen effektiv in die nächste Generation des autonomen Fahrens zu kodieren, das durch Tencents hochpräzises automatisches Karten-KI-Annotationssystem angetrieben wird, sind neue Modelle erforderlich, um diese multimodalen Merkmale im Sprachraum abzubilden. Tencent hat das hochpräzise automatische KI-Beschriftungssystem für Karten THMA entwickelt, das auf aktivem Lernen basiert und hochpräzise Karten im Maßstab von Hunderttausenden Kilometern erstellen und beschriften kann. Um die Entwicklung dieses Bereichs voranzutreiben, schlug Tencent den auf THMA basierenden MAPLM-Datensatz vor, der Panoramabilder, 3D-Lidar-Punktwolken und kontextbasierte hochpräzise Kartenanmerkungen sowie einen neuen Frage- und Antwort-Benchmark MAPLM-QA enthält
4. Großes Sprachmodell in der Mensch-Fahrzeug-Interaktion
Die Mensch-Fahrzeug-Interaktion und das Verständnis des menschlichen Fahrverhaltens stellen auch beim autonomen Fahren eine große Herausforderung dar. Menschliche Fahrer verlassen sich häufig auf nonverbale Signale, etwa auf das Verlangsamen, um nachzugeben, oder auf die Nutzung von Körperbewegungen, um mit anderen Fahrern oder Fußgängern zu kommunizieren. Diese nonverbalen Signale spielen eine entscheidende Rolle bei der Kommunikation im Straßenverkehr. In der Vergangenheit kam es zu vielen Unfällen mit selbstfahrenden Systemen, weil selbstfahrende Autos sich oft anders verhielten, als andere Autofahrer erwartet hätten. Zukünftig wird MLLM in der Lage sein, umfangreiche Kontextinformationen aus verschiedenen Quellen zu integrieren und den Blick, die Gesten und den Fahrstil eines Fahrers zu analysieren, um diese sozialen Signale besser zu verstehen und eine effiziente Planung zu ermöglichen. Durch die Schätzung der sozialen Signale anderer Fahrer kann LLM die Entscheidungsfähigkeit und die Gesamtsicherheit autonomer Fahrzeuge verbessern.
Personalisiertes autonomes Fahren
Bei der Entwicklung autonomer Fahrzeuge ist ein wichtiger Aspekt die Überlegung, wie sie sich an die individuellen Fahrpräferenzen des Benutzers anpassen. Es besteht ein wachsender Konsens darüber, dass selbstfahrende Autos den Fahrstil ihrer Benutzer nachahmen sollten. Um dies zu erreichen, müssen autonome Fahrsysteme Benutzerpräferenzen in verschiedenen Aspekten wie Navigation, Fahrzeugwartung und Unterhaltung lernen und integrieren. Dank der Möglichkeiten zur Abstimmung von Anweisungen und kontextbezogenen Lernfunktionen eignet sich LLM ideal für die Integration von Benutzerpräferenzen und Informationen zum Fahrverlauf in autonome Fahrzeuge, um ein personalisiertes Fahrerlebnis zu bieten.
Autonomes Fahren steht seit vielen Jahren im Mittelpunkt der Aufmerksamkeit und zog viele Risikokapitalgeber an. Die Integration von LLM in autonome Fahrzeuge stellt einzigartige Herausforderungen dar, deren Bewältigung jedoch die bestehenden autonomen Systeme erheblich verbessern wird. Es ist absehbar, dass durch LLM unterstützte intelligente Cockpits in der Lage sind, Fahrszenarien und Benutzerpräferenzen zu verstehen und ein tieferes Vertrauen zwischen dem Fahrzeug und den Insassen aufzubauen. Darüber hinaus werden autonome Fahrsysteme, die LLM einsetzen, besser in der Lage sein, ethische Dilemmata zu bewältigen, bei denen es um die Abwägung der Sicherheit von Fußgängern und der Sicherheit von Fahrzeuginsassen geht, und so einen Entscheidungsprozess fördern, der in komplexen Fahrszenarien eher ethisch ist. Dieser Artikel integriert Erkenntnisse der Mitglieder des WACV 2024 LLVM-AD-Workshop-Komitees und soll Forscher dazu inspirieren, zur Entwicklung autonomer Fahrzeuge der nächsten Generation mit LLM-Technologie beizutragen.
Das obige ist der detaillierte Inhalt vonSystemforschung enthüllt unverzichtbares Großmodell für autonomes Fahrsystem der nächsten Generation. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!