DriveLM ist ein sprachbasiertes Treiberprojekt, das einen Datensatz und ein Modell enthält. Mit DriveLM führen wir die Inferenzfähigkeiten großer Sprachmodelle im autonomen Fahren (AD) ein, um Entscheidungen zu treffen und eine erklärbare Planung sicherzustellen.
Im Datensatz von DriveLM verwenden wir von Menschen geschriebene Argumentationslogik als Verbindungen, um Wahrnehmung, Vorhersage und Planung zu erleichtern (P3). In unserem Modell schlagen wir ein visuelles AD-Sprachmodell mit Mindmapping-Funktionen vor, um bessere Planungsergebnisse zu erzielen. Derzeit haben wir eine Demoversion des Datensatzes veröffentlicht, und der vollständige Datensatz und das Modell werden in Zukunft veröffentlicht
Projektlink: https://github.com/OpenDriveLab/DriveLM Was neu geschrieben werden muss, ist: Projektlink: https://github.com/OpenDriveLab/DriveLM
Der aufregendste Aspekt des Datensatzes ist: Die Frage-Antwort-Funktion (QA) in P3 ist in einer grafischen Struktur mit QA-Paaren als jedem Knoten und den Beziehungen von Objekten als Kanten verbunden.
Im Vergleich zu rein sprachlichen Denkbäumen oder Denkkarten bevorzugen wir Multimodalität. Im AD-Bereich tun wir dies, weil jede Stufe die AD-Aufgabe definiert, von der Rohsensoreingabe bis zur endgültigen Steuerungsaktion
Erstellen Sie unseren Datensatz basierend auf dem gängigen nuScenes-Datensatz. Das Kernelement von DriveLM ist die rahmenbasierte P3-Qualitätssicherung. Wahrnehmungsprobleme erfordern, dass Modelle Objekte in einer Szene erkennen. Das Vorhersageproblem erfordert, dass das Modell den zukünftigen Zustand wichtiger Objekte in der Szene vorhersagt. Planungsprobleme veranlassen das Modell, sinnvolle Planungsmaßnahmen zu ergreifen und gefährliche Maßnahmen zu vermeiden.
Das obige ist der detaillierte Inhalt vonDer entscheidende Schritt zum „Einsteigen ins Auto' für große Modelle: Der weltweit erste Open-Source-Datensatz für Sprache und autonomes Fahren ist da. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!