


Ausführliche Diskussion über die Anwendung des multimodalen Fusionswahrnehmungsalgorithmus beim autonomen Fahren
Bitte wenden Sie sich an die Quelle, um die Erlaubnis zum Nachdruck dieses Artikels zu erhalten. Dieser Artikel wurde vom öffentlichen Konto Autonomous Driving Heart veröffentlicht war der Schlüssel zur Automatik. Ein wichtiger Teil der Fahrwahrnehmung. Allerdings haben eine unzureichende Informationsnutzung, Rauschen in den Originaldaten und eine Fehlausrichtung zwischen verschiedenen Sensoren (z. B. nicht synchronisierte Zeitstempel) zu einer eingeschränkten Fusionsleistung geführt. In diesem Artikel werden bestehende multimodale Wahrnehmungsalgorithmen für autonomes Fahren, darunter LiDAR und Kameras, umfassend untersucht und mehr als 50 Dokumente analysiert. Anders als bei der herkömmlichen Klassifizierungsmethode von Fusionsalgorithmen wird dieses Feld in diesem Artikel basierend auf den verschiedenen Fusionsstadien in zwei Hauptkategorien und vier Unterkategorien eingeteilt. Darüber hinaus analysiert dieser Artikel bestehende Probleme im aktuellen Bereich und bietet Hinweise für zukünftige Forschungsrichtungen.
2 Warum ist Multimodalität nötig?
Das liegt daran, dass der Single-Modal-Wahrnehmungsalgorithmus inhärente Mängel aufweist. Beispielsweise wird Lidar im Allgemeinen höher als die Kamera installiert. In komplexen realen Fahrszenarien können Objekte in der Frontkamera blockiert werden. In diesem Fall ist es möglich, Lidar zu verwenden, um das fehlende Ziel zu erfassen. Aufgrund der Einschränkungen der mechanischen Struktur verfügt LiDAR jedoch über unterschiedliche Auflösungen in unterschiedlichen Entfernungen und wird leicht durch extrem schlechte Wetterbedingungen wie starken Regen beeinträchtigt. Obwohl beide Sensoren alleine sehr gut funktionieren können, werden die komplementären Informationen von LiDAR und Kameras in Zukunft das autonome Fahren auf der Wahrnehmungsebene sicherer machen. In letzter Zeit haben multimodale Wahrnehmungsalgorithmen für autonomes Fahren große Fortschritte gemacht. Zu diesen Fortschritten gehören die modalübergreifende Merkmalsdarstellung, zuverlässigere Modalsensoren sowie komplexere und stabilere multimodale Fusionsalgorithmen und -techniken. Allerdings konzentrieren sich nur wenige Übersichten [15, 81] auf die Methodik selbst der multimodalen Fusion, und der Großteil der Literatur wird nach traditionellen Klassifizierungsregeln klassifiziert, nämlich vor der Fusion, tiefer (Merkmals-) Fusion und nach der Fusion konzentriert sich auf die Phase der Feature-Fusion im Algorithmus, sei es auf Datenebene, Feature-Ebene oder Vorschlagsebene. Bei dieser Klassifizierungsregel gibt es zwei Probleme: Erstens ist die Merkmalsdarstellung jeder Ebene nicht klar definiert; zweitens behandelt sie die beiden Zweige von Lidar und Kamera aus einer symmetrischen Perspektive, wodurch die Beziehung zwischen Merkmalsfusion und Merkmalsfusion in der LiDAR-Zweig. Der Fall der Feature-Fusion auf Datenebene im Kamerazweig. Zusammenfassend lässt sich sagen, dass die traditionelle Klassifizierungsmethode zwar intuitiv ist, aber nicht mehr für die Entwicklung aktueller multimodaler Fusionsalgorithmen geeignet ist, was Forscher bis zu einem gewissen Grad daran hindert, Forschung und Analyse aus einer Systemperspektive durchzuführen3 Aufgaben und öffentlich Wettbewerbe
Zu den gängigen Wahrnehmungsaufgaben gehören Zielerkennung, semantische Segmentierung, Tiefenvervollständigung und -vorhersage usw. Der Schwerpunkt dieses Artikels liegt auf der Erkennung und Segmentierung, beispielsweise der Erkennung von Hindernissen, Ampeln, Verkehrszeichen und der Segmentierung von Fahrspurlinien und Freiräumen. Die Aufgabe zur Wahrnehmung des autonomen Fahrens ist in der folgenden Abbildung dargestellt:Zu den allgemeinen öffentlichen Datensätzen gehören hauptsächlich KITTI, Waymo und nuScenes. Die folgende Abbildung fasst die Datensätze zur Wahrnehmung des autonomen Fahrens und ihre Eigenschaften zusammen.
Multimodale Fusion ist untrennbar mit der Form des Datenausdrucks verbunden und bezieht sich im Allgemeinen auf das RGB-Format oder Graustufenbild. Der Lidar-Zweig ist jedoch stark von Datenformaten abhängig Es werden verschiedene Datenformate abgeleitet. Es wird ein völlig anderes nachgelagertes Modelldesign vorgeschlagen, das zusammenfassend drei allgemeine Richtungen umfasst: Punktwolkendarstellung auf Basis von Punkten, voxelbasierte und zweidimensionale Kartierung.
Pre-Fusion (Fusion auf Datenebene) bezieht sich auf die direkte Fusion von Rohsensordaten verschiedener Modalitäten durch räumliche Ausrichtung.
Deep Fusion (Feature-Level-Fusion) bezieht sich auf die Fusion modalübergreifender Daten im Feature-Raum durch Kaskaden- oder Elementmultiplikation.
Post-Fusion (Fusion auf Zielebene) bezieht sich auf die Fusion der Vorhersageergebnisse jedes Modalmodells, um die endgültige Entscheidung zu treffen.
- Der Artikel verwendet die Klassifizierungsmethode in der folgenden Abbildung, die im Allgemeinen in starke Fusion und schwache Fusion unterteilt wird. Starke Fusion kann in Frontfusion, tiefe Fusion, asymmetrische Fusion und Postfusion unterteilt werden.
- Dieser Artikel Verwendet die 3D-Erkennung von KITTI. Die Leistung jedes multimodalen Fusionsalgorithmus wird horizontal mit der BEV-Erkennungsaufgabe verglichen. Das folgende Bild ist das Ergebnis des BEV-Erkennungstestsatzes:
Das Folgende ist ein Beispiel für das Ergebnis 3D-Erkennungstestset:
5 Starke Fusion Wie in der obigen Abbildung dargestellt, ist ersichtlich, dass jedes Submodul der starken Fusion stark von der Lidar-Punktwolke und nicht von Kameradaten abhängt.
Pre-FusionIm LiDAR Zweig, Punktwolken verfügen über viele Ausdrucksmethoden, wie z. B. Reflexionskarten und voxelisierte Bilder, Vorderansicht/Fernansicht/BEV-Ansicht und Pseudopunktwolke usw. Obwohl diese Daten in verschiedenen Backbone-Netzwerken unterschiedliche intrinsische Eigenschaften aufweisen, mit Ausnahme von Pseudopunktwolken [79], werden die meisten Daten durch bestimmte Regelverarbeitung generiert. Darüber hinaus sind diese LiDAR-Daten im Vergleich zur Einbettung von Merkmalsräumen gut interpretierbar und können direkt visualisiert werden. Im Bildzweig bezieht sich die Definition auf Datenebene im engeren Sinne auf RGB- oder Graustufenbilder, dieser Definition mangelt es jedoch an Universalität und Rationalität. Daher erweitert dieser Artikel die Definition von Bilddaten auf Datenebene in der Vorfusionsphase um Daten auf Datenebene und auf Merkmalsebene. Es ist erwähnenswert, dass dieser Artikel auch die Vorhersageergebnisse der semantischen Segmentierung als eine Art Vorfusion (Bildmerkmalsebene) betrachtet. Dies ist einerseits hilfreich für die 3D-Zielerkennung und andererseits, weil Die „Zielebene“ der semantischen Segmentierung unterscheidet sich vom endgültigen Zielebenenvorschlag der gesamten Aufgabe Daten auf der Merkmalsebene des LIDAR-Zweigs, nicht jedoch die Daten in der Bildzweigfusion auf der Satz- und Merkmalsebene. Einige Methoden verwenden beispielsweise Feature-Lifting, um eingebettete Darstellungen von LiDAR-Punktwolken bzw. -Bildern zu erhalten, und verschmelzen die Merkmale der beiden Modalitäten durch eine Reihe nachgeschalteter Module. Im Gegensatz zu anderen starken Fusionen werden Features bei der Deep Fusion jedoch manchmal kaskadenartig verschmolzen, wobei beide rohe und semantische Informationen auf hoher Ebene nutzen. Das schematische Diagramm sieht wie folgt aus:
Post-Fusion
Post-Fusion, die auch als Fusion auf Zielebene bezeichnet werden kann, bezieht sich auf die Fusion von Vorhersageergebnissen (oder Vorschlägen) mehrerer Modalitäten. Beispielsweise nutzen einige Post-Fusion-Methoden die Ausgabe von LiDAR-Punktwolken und -Bildern für die Fusion [55]. Das Angebotsdatenformat für beide Zweige sollte mit den Endergebnissen übereinstimmen, es können jedoch Unterschiede in Qualität, Quantität und Genauigkeit bestehen. Die Postfusion kann als Integrationsmethode zur multimodalen Informationsoptimierung des endgültigen Vorschlags angesehen werden. Das schematische Diagramm sieht wie folgt aus:
Asymmetrische Fusion
Die letzte Art der starken Fusion ist die asymmetrische Fusion bezieht sich auf Es geht darum, die Informationen auf Zielebene eines Zweigs mit den Informationen auf Daten- oder Funktionsebene anderer Zweige zu verschmelzen. Die oben genannten drei Fusionsmethoden behandeln jeden Zweig der Multimodalität gleich, während die asymmetrische Fusion betont, dass mindestens ein Zweig dominant ist und andere Zweige Hilfsinformationen zur Vorhersage des Endergebnisses liefern. Die folgende Abbildung ist ein schematisches Diagramm der asymmetrischen Fusion. In der Vorschlagsphase hat die asymmetrische Fusion nur den Vorschlag eines Zweigs, und dann ist die Fusion der Vorschlag aller Zweige.6 Der Unterschied zwischen schwacher Fusion
und starker Fusion besteht darin, dass die Methode der schwachen Fusion Daten, Features oder Ziele aus multimodalen Zweigen nicht direkt fusioniert, sondern die Daten in anderen Formen verarbeitet. Die folgende Abbildung zeigt das Grundgerüst des schwachen Fusionsalgorithmus. Auf schwacher Fusion basierende Methoden verwenden normalerweise bestimmte regelbasierte Methoden, um Daten von einer Modalität als Überwachungssignal zu nutzen, um die Interaktion einer anderen Modalität zu steuern. Beispielsweise kann der 2D-Vorschlag von CNN im Bildzweig zu einer Kürzung der ursprünglichen LiDAR-Punktwolke führen, und eine schwache Fusion gibt die ursprüngliche LiDAR-Punktwolke direkt in das LiDAR-Backbone ein, um den endgültigen Vorschlag auszugeben.
7 Andere Fusionsmethoden
Es gibt auch einige Arbeiten, die keinem der oben genannten Paradigmen angehören, weil sie im Rahmen des Modelldesigns mehrere Fusionsmethoden verwenden, wie zum Beispiel [39], das tief kombiniert Fusion und Post-Processing Fusion[77] kombiniert die Vorfusion. Diese Methoden sind nicht die gängigen Methoden für das Design von Fusionsalgorithmen und werden in diesem Artikel in andere Fusionsmethoden eingeteilt.
8 Möglichkeiten der multimodalen Fusion
In den letzten Jahren haben multimodale Fusionsmethoden für autonome Fahrwahrnehmungsaufgaben rasante Fortschritte gemacht, von fortschrittlicheren Merkmalsdarstellungen bis hin zu komplexeren Deep-Learning-Modellen. Es gibt jedoch noch einige offene Probleme, die gelöst werden müssen. In diesem Artikel werden einige mögliche zukünftige Verbesserungsrichtungen wie folgt zusammengefasst.
Fortgeschrittenere Fusionsmethoden
Aktuelle Fusionsmodelle leiden unter Problemen mit Fehlausrichtung und Informationsverlust [13, 67, 98]. Darüber hinaus behindern flache Fusionsoperationen auch weitere Verbesserungen der Wahrnehmungsaufgabenleistung. Die Zusammenfassung lautet wie folgt:
- Verlagerung und Informationsverlust: Die internen und externen Unterschiede zwischen Kameras und LiDAR sind sehr groß und die Daten der beiden Modi müssen koordiniert werden. Herkömmliche Frontfusions- und Tiefenfusionsmethoden nutzen Kalibrierungsinformationen, um alle LiDAR-Punkte direkt in das Kamerakoordinatensystem zu projizieren und umgekehrt. Aufgrund des Einbauorts und des Sensorrauschens ist diese pixelweise Ausrichtung jedoch nicht genau genug. Daher nutzen einige Werke Umgebungsinformationen, um sie zu ergänzen und eine bessere Leistung zu erzielen. Darüber hinaus gehen während des Konvertierungsprozesses von Eingabe- und Feature-Räumen einige andere Informationen verloren. Normalerweise führt die Projektion von Dimensionsreduktionsoperationen unweigerlich zu einem großen Informationsverlust, beispielsweise dem Verlust von Höheninformationen bei der Zuordnung von 3D-LiDAR-Punktwolken zu 2D-BEV-Bildern. Daher können Sie erwägen, multimodale Daten einem anderen hochdimensionalen Raum zuzuordnen, der für die Fusion konzipiert ist, um die Originaldaten effektiv zu nutzen und Informationsverluste zu reduzieren.
- Vernünftigere Fusionsoperationen: Viele aktuelle Methoden verwenden Kaskaden- oder Elementmultiplikation für die Fusion. Bei diesen einfachen Operationen gelingt es möglicherweise nicht, Daten mit sehr unterschiedlichen Verteilungen zusammenzuführen, was es schwierig macht, semantische Red Dogs zwischen den beiden Modalitäten anzupassen. Einige Arbeiten versuchen, komplexere Kaskadenstrukturen zu verwenden, um Daten zusammenzuführen und die Leistung zu verbessern. In der zukünftigen Forschung können Mechanismen wie die bilineare Kartierung Merkmale mit unterschiedlichen Eigenschaften verschmelzen und auch Richtungen berücksichtigen.
Informationsnutzung aus mehreren Quellen
Ein zukunftsgerichtetes Einzelbild ist ein typisches Szenario für Wahrnehmungsaufgaben beim autonomen Fahren. Allerdings können die meisten Frameworks nur begrenzte Informationen nutzen und Hilfsaufgaben nicht im Detail entwerfen, um das Verständnis von Fahrszenarien zu erleichtern. Die Zusammenfassung lautet wie folgt:
- Mehr potenzielle Informationen nutzen: Bestehende Methoden mangelt es an einer effektiven Nutzung von Informationen aus mehreren Dimensionen und Quellen. Die meisten konzentrieren sich auf multimodale Einzelbilddaten in der Vorderansicht. Dies führt dazu, dass andere aussagekräftige Daten wie semantische, räumliche und Szenenkontextinformationen nicht ausreichend genutzt werden. Einige Arbeiten versuchen, semantische Segmentierungsergebnisse zur Unterstützung der Aufgabe zu nutzen, während andere Modelle möglicherweise Zwischenschichtmerkmale des CNN-Backbones nutzen. In autonomen Fahrszenarien können viele nachgelagerte Aufgaben mit expliziten semantischen Informationen die Objekterkennungsleistung erheblich verbessern, beispielsweise die Erkennung von Fahrspurlinien, Ampeln und Verkehrszeichen. Zukünftige Forschungen können nachgelagerte Aufgaben kombinieren, um gemeinsam einen vollständigen semantischen Verständnisrahmen für städtische Szenen aufzubauen und so die Wahrnehmungsleistung zu verbessern. Darüber hinaus integriert [63] Inter-Frame-Informationen, um die Leistung zu verbessern. Zeitreiheninformationen enthalten serialisierte Überwachungssignale, die im Vergleich zu Einzelbildmethoden stabilere Ergebnisse liefern können. Zukünftige Arbeiten könnten daher eine stärkere Nutzung zeitlicher, kontextueller und räumlicher Informationen in Betracht ziehen, um Leistungsdurchbrüche zu erzielen.
- Selbstüberwachtes Repräsentationslernen: Gegenseitig überwachte Signale existieren natürlich in modalübergreifenden Daten, die aus derselben realen Szene, jedoch aus unterschiedlichen Blickwinkeln, abgetastet werden. Aufgrund des Mangels an tiefgreifendem Verständnis der Daten können aktuelle Methoden jedoch nicht die Wechselbeziehungen zwischen verschiedenen Modalitäten ermitteln. Zukünftige Forschungen können sich darauf konzentrieren, wie multimodale Daten für selbstüberwachtes Lernen genutzt werden können, einschließlich Pre-Training, Feinabstimmung oder kontrastivem Lernen. Durch diese hochmodernen Mechanismen werden Fusionsalgorithmen das tiefere Verständnis des Modells für die Daten vertiefen und gleichzeitig eine bessere Leistung erzielen.
Inhärente Sensorprobleme
Reale Szenen und Sensorhöhen können sich auf die Domänenverzerrung und die Auflösung auswirken. Diese Mängel werden das groß angelegte Training und den Echtzeitbetrieb von Deep-Learning-Modellen für autonomes Fahren behindern
- Domänenverzerrung: In autonomen Fahrwahrnehmungsszenarien werden die von verschiedenen Sensoren extrahierten Rohdaten von schwerwiegenden domänenbezogenen Merkmalen begleitet. Verschiedene Kameras haben unterschiedliche optische Eigenschaften und LiDAR kann von mechanischen bis hin zu Festkörperstrukturen variieren. Darüber hinaus weisen die Daten selbst Domänenverzerrungen auf, beispielsweise Wetter, Jahreszeit oder geografische Lage, selbst wenn sie vom selben Sensor erfasst wurden. Dadurch wird die Verallgemeinerung des Erkennungsmodells beeinträchtigt und es kann sich nicht effektiv an neue Szenarien anpassen. Solche Mängel behindern die Erfassung umfangreicher Datensätze und die Wiederverwendbarkeit ursprünglicher Trainingsdaten. Daher kann sich die Zukunft darauf konzentrieren, eine Methode zur Eliminierung von Domain-Bias und zur adaptiven Integration verschiedener Datenquellen zu finden.
- Auflösungskonflikt: Verschiedene Sensoren haben normalerweise unterschiedliche Auflösungen. Beispielsweise ist die räumliche Dichte von LiDAR deutlich geringer als die von Bildern. Unabhängig davon, welche Projektionsmethode verwendet wird, kommt es zu Informationsverlusten, da die entsprechende Beziehung nicht gefunden werden kann. Dies kann dazu führen, dass das Modell von Daten einer bestimmten Modalität dominiert wird, sei es aufgrund unterschiedlicher Auflösungen der Merkmalsvektoren oder eines Ungleichgewichts in den Rohinformationen. Daher könnte zukünftige Arbeit ein neues Datendarstellungssystem untersuchen, das mit Sensoren unterschiedlicher räumlicher Auflösung kompatibel ist.
9 Referenz
[1] https://zhuanlan.zhihu.com/p/470588787
[2] Multimodale Sensorfusion für die Wahrnehmung des Autofahrens: Eine Umfrage
Originallink: https ://mp.weixin.qq.com/s/usAQRL18vww9YwMXRvEwLw
Das obige ist der detaillierte Inhalt vonAusführliche Diskussion über die Anwendung des multimodalen Fusionswahrnehmungsalgorithmus beim autonomen Fahren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Gestern wurde ich während des Interviews gefragt, ob ich irgendwelche Long-Tail-Fragen gestellt hätte, also dachte ich, ich würde eine kurze Zusammenfassung geben. Das Long-Tail-Problem des autonomen Fahrens bezieht sich auf Randfälle bei autonomen Fahrzeugen, also mögliche Szenarien mit geringer Eintrittswahrscheinlichkeit. Das wahrgenommene Long-Tail-Problem ist einer der Hauptgründe, die derzeit den betrieblichen Designbereich intelligenter autonomer Einzelfahrzeugfahrzeuge einschränken. Die zugrunde liegende Architektur und die meisten technischen Probleme des autonomen Fahrens wurden gelöst, und die verbleibenden 5 % der Long-Tail-Probleme wurden nach und nach zum Schlüssel zur Einschränkung der Entwicklung des autonomen Fahrens. Zu diesen Problemen gehören eine Vielzahl fragmentierter Szenarien, Extremsituationen und unvorhersehbares menschliches Verhalten. Der „Long Tail“ von Randszenarien beim autonomen Fahren bezieht sich auf Randfälle in autonomen Fahrzeugen (AVs). Randfälle sind mögliche Szenarien mit geringer Eintrittswahrscheinlichkeit. diese seltenen Ereignisse

Oben geschrieben und das persönliche Verständnis des Autors: Derzeit spielt das Wahrnehmungsmodul im gesamten autonomen Fahrsystem eine entscheidende Rolle Das Steuermodul im autonomen Fahrsystem trifft zeitnahe und korrekte Urteile und Verhaltensentscheidungen. Derzeit sind Autos mit autonomen Fahrfunktionen in der Regel mit einer Vielzahl von Dateninformationssensoren ausgestattet, darunter Rundumsichtkamerasensoren, Lidar-Sensoren und Millimeterwellenradarsensoren, um Informationen in verschiedenen Modalitäten zu sammeln und so genaue Wahrnehmungsaufgaben zu erfüllen. Der auf reinem Sehen basierende BEV-Wahrnehmungsalgorithmus wird von der Industrie aufgrund seiner geringen Hardwarekosten und einfachen Bereitstellung bevorzugt, und seine Ausgabeergebnisse können problemlos auf verschiedene nachgelagerte Aufgaben angewendet werden.

Die Trajektorienvorhersage spielt eine wichtige Rolle beim autonomen Fahren. Unter autonomer Fahrtrajektorienvorhersage versteht man die Vorhersage der zukünftigen Fahrtrajektorie des Fahrzeugs durch die Analyse verschiedener Daten während des Fahrvorgangs. Als Kernmodul des autonomen Fahrens ist die Qualität der Trajektorienvorhersage von entscheidender Bedeutung für die nachgelagerte Planungssteuerung. Die Trajektorienvorhersageaufgabe verfügt über einen umfangreichen Technologie-Stack und erfordert Vertrautheit mit der dynamischen/statischen Wahrnehmung des autonomen Fahrens, hochpräzisen Karten, Fahrspurlinien, Fähigkeiten in der neuronalen Netzwerkarchitektur (CNN&GNN&Transformer) usw. Der Einstieg ist sehr schwierig! Viele Fans hoffen, so schnell wie möglich mit der Flugbahnvorhersage beginnen zu können und Fallstricke zu vermeiden. Heute werde ich eine Bestandsaufnahme einiger häufiger Probleme und einführender Lernmethoden für die Flugbahnvorhersage machen! Einführungsbezogenes Wissen 1. Sind die Vorschaupapiere in Ordnung? A: Schauen Sie sich zuerst die Umfrage an, S

Vorab geschrieben und Ausgangspunkt Das End-to-End-Paradigma verwendet ein einheitliches Framework, um Multitasking in autonomen Fahrsystemen zu erreichen. Trotz der Einfachheit und Klarheit dieses Paradigmas bleibt die Leistung von End-to-End-Methoden für das autonome Fahren bei Teilaufgaben immer noch weit hinter Methoden für einzelne Aufgaben zurück. Gleichzeitig erschweren die in früheren End-to-End-Methoden weit verbreiteten Funktionen der dichten Vogelperspektive (BEV) die Skalierung auf mehr Modalitäten oder Aufgaben. Hier wird ein Sparse-Search-zentriertes End-to-End-Paradigma für autonomes Fahren (SparseAD) vorgeschlagen, bei dem die Sparse-Suche das gesamte Fahrszenario, einschließlich Raum, Zeit und Aufgaben, ohne dichte BEV-Darstellung vollständig abbildet. Insbesondere ist eine einheitliche, spärliche Architektur für die Aufgabenerkennung einschließlich Erkennung, Verfolgung und Online-Zuordnung konzipiert. Zudem schwer

Zu den häufigsten Herausforderungen, mit denen Algorithmen für maschinelles Lernen in C++ konfrontiert sind, gehören Speicherverwaltung, Multithreading, Leistungsoptimierung und Wartbarkeit. Zu den Lösungen gehören die Verwendung intelligenter Zeiger, moderner Threading-Bibliotheken, SIMD-Anweisungen und Bibliotheken von Drittanbietern sowie die Einhaltung von Codierungsstilrichtlinien und die Verwendung von Automatisierungstools. Praktische Fälle zeigen, wie man die Eigen-Bibliothek nutzt, um lineare Regressionsalgorithmen zu implementieren, den Speicher effektiv zu verwalten und leistungsstarke Matrixoperationen zu nutzen.

Im vergangenen Monat hatte ich aus bekannten Gründen einen sehr intensiven Austausch mit verschiedenen Lehrern und Mitschülern der Branche. Ein unvermeidliches Thema im Austausch ist natürlich End-to-End und der beliebte Tesla FSDV12. Ich möchte diese Gelegenheit nutzen, einige meiner aktuellen Gedanken und Meinungen als Referenz und Diskussion darzulegen. Wie definiert man ein durchgängiges autonomes Fahrsystem und welche Probleme sollten voraussichtlich durchgängig gelöst werden? Gemäß der traditionellsten Definition bezieht sich ein End-to-End-System auf ein System, das Rohinformationen von Sensoren eingibt und für die Aufgabe relevante Variablen direkt ausgibt. Bei der Bilderkennung kann CNN beispielsweise als End-to-End bezeichnet werden, verglichen mit der herkömmlichen Methode zum Extrahieren von Merkmalen + Klassifizieren. Bei autonomen Fahraufgaben werden Eingabedaten verschiedener Sensoren (Kamera/LiDAR) benötigt

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren

Die unterste Ebene der C++-Sortierfunktion verwendet die Zusammenführungssortierung, ihre Komplexität beträgt O(nlogn) und bietet verschiedene Auswahlmöglichkeiten für Sortieralgorithmen, einschließlich schneller Sortierung, Heap-Sortierung und stabiler Sortierung.
