


Von Papieren bis hin zu Code, von Spitzenforschung bis hin zu industrieller Umsetzung: Verstehen Sie die BEV-Wahrnehmung umfassend
BEV Was genau ist Wahrnehmung? Auf welche Aspekte der Wahrnehmung von BEV achten sowohl die akademischen als auch die industriellen Kreise des autonomen Fahrens? Dieser Artikel verrät Ihnen die Antwort.
Im Bereich des autonomen Fahrens ist es ein Trend, dem Wahrnehmungsmodell eine leistungsstarke Darstellung aus der Vogelperspektive (BEV) erlernen zu lassen, und hat in diesem Jahr für Aufmerksamkeit gesorgt der Branche und der breiten akademischen Aufmerksamkeit. Im Vergleich zu den meisten früheren Modellen im Bereich des autonomen Fahrens, die auf der Ausführung von Aufgaben wie Erkennung, Segmentierung und Verfolgung in der Vorderansicht oder perspektivischen Ansicht basieren, ermöglicht die Darstellung aus der Vogelperspektive (BEV) dem Modell, verdeckte Fahrzeuge besser zu identifizieren und Hat Erleichtert die Entwicklung und Bereitstellung nachfolgender Module (z. B. Planung, Steuerung).
Es ist ersichtlich, dass die BEV-Wahrnehmungsforschung einen enormen potenziellen Einfluss auf den Bereich des autonomen Fahrens hat und langfristige Aufmerksamkeit und Investitionen von Wissenschaft und Industrie verdient ist BEV-Wahrnehmung? Was ist das? Auf welche Inhalte der BEV-Wahrnehmung achten akademische und industrielle Führungskräfte im Bereich autonomes Fahren? Dieser Artikel verrät Ihnen die Antwort durch BEVPerception Survey.
BEVPerception Survey ist Shanghai Artificial Intelligence Laboratory Autonomous Driving OpenDriveLab-Team und # 🎜 🎜#SenseTime Research InstituteDie praktische Tool-Präsentationsmethode des Gemeinschaftspapiers „Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe“, #🎜 🎜 #Es ist in zwei Hauptabschnitte unterteilt: die neueste Literaturrecherche auf Basis von BEVPercption und die Open-Source-BEV-Perception-Toolbox auf Basis von PyTorch.
- Papieradresse: https:/ /arxiv.org/abs/2209.05324
- Projektadresse: https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe Zusammenfassende Interpretation, technische Interpretation
BEV-Kamera, BEV-Lidar und BEV-Fusion . BEV-Kamera stellt einen reinen oder visionszentrierten Algorithmus für die 3D-Objekterkennung oder -segmentierung von mehreren umgebenden Kameras dar. BEV-Lidar beschreibt die Erkennungs- oder Segmentierungsaufgabe von Punktwolkeneingaben. BEV-Fusion beschreibt die Erkennungs- oder Segmentierungsaufgabe von Eingabefusionsmechanismen mehrerer Sensoren wie Kameras, Lidar, globale Navigationssysteme, Odometrie, HD-Karten, CAN-Bus usw.
BEV Perception Toolbox ist für BEV-basierte Kameras. Bietet eine Plattform für die 3D-Objekterkennung und eine experimentelle Plattform für den Waymo-Datensatz, die manuelle Tutorials und Experimente mit kleinen Datensätzen ermöglicht.
Insbesondere BEV-Kamera stellt einen Algorithmus zur 3D-Objekterkennung oder -Segmentierung von mehreren umgebenden Kameras dar; BEV-Lidar stellt die Verwendung von Punktwolken als Eingabe zur Vervollständigung von Erkennungs- oder Segmentierungsaufgaben dar. Es nutzt die Ausgabe mehrerer Sensoren als Eingabe, wie z. B. Kameras, LiDAR, GNSS, Kilometerzähler, HD-Karte, CAN-Bus usw. #? 🎜 #Die Wahrnehmung der BEV-Kamera umfasst drei Teile: 2D-Feature-Extraktor, Ansichtstransformation und 3D-Decoder. Die folgende Abbildung zeigt das BEV-Kamerawahrnehmungsflussdiagramm. Bei der Ansichtstransformation gibt es zwei Möglichkeiten, 3D-Informationen zu kodieren: Die eine besteht darin, Tiefeninformationen aus 2D-Merkmalen vorherzusagen, und die andere darin, 2D-Merkmale aus dem 3D-Raum abzutasten.
Abbildung 2: BEV-Kamera-Wahrnehmungsflussdiagramm
Für den 2D-Feature-Extraktor gibt es viel Erfahrung in der 2D-Wahrnehmungsaufgabe, die in die 3D-Wahrnehmungsaufgabe übernommen werden kann, wie z Form des Hauptinterventionstrainings.
Das Ansichtskonvertierungsmodul ist ein ganz anderer Aspekt als das 2D-Wahrnehmungssystem. Wie in der Abbildung oben gezeigt, gibt es im Allgemeinen zwei Möglichkeiten, eine Ansichtstransformation durchzuführen: Eine ist die Transformation vom 3D-Raum in den 2D-Raum, die andere ist die Transformation vom 2D-Raum in den 3D-Raum. Diese beiden Transformationsmethoden verwenden entweder den 3D-Raum Vorkenntnisse der Physik im System oder Nutzung zusätzlicher 3D-Informationen zur Überwachung. Es ist erwähnenswert, dass nicht alle 3D-Wahrnehmungsmethoden über Ansichtstransformationsmodule verfügen. Beispielsweise erkennen einige Methoden Objekte im 3D-Raum direkt anhand von Features im 2D-Raum.
3D-Decoder empfängt Funktionen im 2D/3D-Raum und gibt 3D-Wahrnehmungsergebnisse aus. Die meisten 3D-Decoder basieren auf LiDAR-basierten Wahrnehmungsmodellen. Diese Methoden führen die Erkennung im BEV-Raum durch, es gibt jedoch immer noch einige 3D-Decoder, die Funktionen im 2D-Raum ausnutzen und die Lokalisierung von 3D-Objekten direkt regressieren.
BEV LiDAR
BEV Der allgemeine Prozess der LiDAR-Wahrnehmung umfasst hauptsächlich zwei Zweige, um Punktwolkendaten in eine BEV-Darstellung umzuwandeln. Die folgende Abbildung zeigt das BEV-Lidar-Erkennungsflussdiagramm. Der obere Zweig extrahiert Punktwolkenmerkmale im 3D-Raum, um genauere Erkennungsergebnisse zu liefern. Der untere Zweig extrahiert BEV-Merkmale im 2D-Raum und sorgt so für ein effizienteres Netzwerk. Zusätzlich zu punktbasierten Methoden, die auf rohen Punktwolken arbeiten, voxelbasierte Methoden, die Punkte in diskrete Gitter voxelisieren und durch die Diskretisierung kontinuierlicher 3D-Koordinaten eine effizientere Darstellung ermöglichen. Basierend auf der diskreten Voxeldarstellung können 3D-Faltung oder 3D-Sparse-Faltung zum Extrahieren von Punktwolkenmerkmalen verwendet werden. Abbildung 3: Flussdiagramm der BEV-Lidar-Erkennung Wissenschaft und Industrie . Die folgende Abbildung zeigt einen Vergleich der Flussdiagramme der PV- und BEV-Erkennung. Der Hauptunterschied zwischen den beiden ist das 2D-zu-3D-Konvertierungs- und Fusionsmodul. Im PV-fähigen Flussdiagramm werden die Ergebnisse verschiedener Algorithmen zunächst in den 3D-Raum umgewandelt und dann mithilfe einiger Vorkenntnisse oder manuell erstellter Regeln zusammengeführt. Im BEV-Wahrnehmungsflussdiagramm wird die PV-Feature-Map in die BEV-Perspektive konvertiert und dann im BEV-Raum zusammengeführt, um das Endergebnis zu erhalten, wodurch die Beibehaltung der ursprünglichen Feature-Informationen maximiert und übermäßiges manuelles Design vermieden wird.
Abbildung 4: Flussdiagramm für PV-Erfassung (links) und BEV-Erfassung (rechts)
Für BEV-Erfassungsmodelle geeignete DatensätzeEs gibt viele Datensätze für BEV-Erfassungsaufgaben. Normalerweise besteht ein Datensatz aus verschiedenen Szenen, und jede Szene hat in verschiedenen Datensätzen eine unterschiedliche Länge. Die folgende Tabelle fasst die in der akademischen Gemeinschaft häufig verwendeten Datensätze zusammen. Wir können sehen, dass der Waymo-Datensatz vielfältigere Szenen und umfangreichere 3D-Erkennungsfeldanmerkungen aufweist als andere Datensätze.
Tabelle 1: Übersicht über BEV-Sensordatensätze
Allerdings gibt es derzeit keine von Waymo entwickelte Software für die BEV-Sensoraufgabe, die in der akademischen Gemeinschaft veröffentlicht wurde. Aus diesem Grund haben wir uns für eine Entwicklung basierend auf dem Waymo-Datensatz entschieden, in der Hoffnung, die Entwicklung von BEV-Wahrnehmungsaufgaben auf dem Waymo-Datensatz zu fördern. BEVFormer ist eine häufig verwendete BEV-Wahrnehmungsmethode. Sie verwendet einen raumzeitlichen Transformator, um die vom Backbone-Netzwerk aus Multi-View-Eingaben extrahierten Merkmale in BEV-Merkmale umzuwandeln und dann die BEV-Merkmale in die Erkennung einzugeben Gehen Sie, um die endgültigen Testergebnisse zu erhalten. BEVFormer verfügt über zwei Funktionen. Er verfügt über eine präzise Konvertierung von 2D-Bildfunktionen in 3D-Funktionen und kann die extrahierten BEV-Funktionen auf verschiedene Erkennungsköpfe anwenden. Wir haben die Ansichtskonvertierungsqualität und die endgültige Erkennungsleistung von BEVFormer durch eine Reihe von Methoden weiter verbessert. Nachdem wir mit BEVFormer++ den ersten PlatzCVPR 2022 Waymo Challenge gewonnen haben, haben wir Toolbox - BEV Perception Toolbox gestartet, indem wir einen vollständigen Satz benutzerfreundlicher Waymo Open Dataset-Datenverarbeitungstools bereitgestellt haben. Dies integriert eine Reihe von Methoden, die die Modellleistung erheblich verbessern können (einschließlich, aber nicht beschränkt auf Datenverbesserung, Erkennungsköpfe, Verlustfunktionen, Modellintegration usw.) und ist mit in diesem Bereich weit verbreiteten Open-Source-Frameworks wie mmdetection3d kompatibel und Detectron2. Im Vergleich zum grundlegenden Waymo-Datensatz optimiert und verbessert die BEV-Perception-Toolbox die Nutzungsfähigkeiten für die Verwendung durch verschiedene Arten von Entwicklern. Die folgende Abbildung zeigt ein Beispiel für die Verwendung der BEV-Awareness-Toolbox basierend auf dem Waymo-Datensatz. Abbildung 5: Toolbox-Nutzungsbeispiel basierend auf dem Waymo-Datensatz und eine ausführlichere ausführliche Diskussion. Eine umfassende Analyse der Literatur zur BEV-Erkennung deckt Kernthemen wie Tiefenschätzung, Ansichtstransformation, Sensorfusion, Domänenanpassung usw. ab und bietet eine detailliertere Erläuterung der Anwendung der BEV-Erkennung in industriellen Systemen. Neben theoretischen Beiträgen bietet BEVPerception Survey auch eine sehr praktische Toolbox zur Verbesserung der kamerabasierten 3D-Vogelperspektive (BEV)-Objekterkennungsleistung, einschließlich einer Reihe von Strategien zur Verbesserung von Trainingsdaten und einem effizienten Encoder-Design Verlustfunktion Design, Testdatenverbesserung und Modellintegrationsstrategien usw. sowie die Implementierung dieser Techniken im Waymo-Datensatz. Wir hoffen, mehr Forschern dabei zu helfen, „Use and Take“ zu erkennen und den Forschern in der Branche des autonomen Fahrens mehr Komfort zu bieten. Toolbox – BEV-Wahrnehmungs-Toolbox
Wir hoffen, dass BEVPerception Survey Benutzern nicht nur dabei hilft, leistungsstarke BEV-Wahrnehmungsmodelle einfach zu nutzen, sondern auch ein guter Ausgangspunkt für Anfänger für den Einstieg in BEV-Wahrnehmungsmodelle wird. Wir sind bestrebt, die Grenzen der Forschung und Entwicklung im Bereich des autonomen Fahrens zu durchbrechen und freuen uns darauf, unsere Ansichten und Diskussionen mit der akademischen Gemeinschaft zu teilen, um das Anwendungspotenzial der Forschung im Bereich des autonomen Fahrens in der realen Welt kontinuierlich zu erkunden.
Das obige ist der detaillierte Inhalt vonVon Papieren bis hin zu Code, von Spitzenforschung bis hin zu industrieller Umsetzung: Verstehen Sie die BEV-Wahrnehmung umfassend. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Oben geschrieben und persönliches Verständnis des Autors. Dreidimensionales Gaussplatting (3DGS) ist eine transformative Technologie, die in den letzten Jahren in den Bereichen explizite Strahlungsfelder und Computergrafik entstanden ist. Diese innovative Methode zeichnet sich durch die Verwendung von Millionen von 3D-Gaußkurven aus, was sich stark von der Neural Radiation Field (NeRF)-Methode unterscheidet, die hauptsächlich ein implizites koordinatenbasiertes Modell verwendet, um räumliche Koordinaten auf Pixelwerte abzubilden. Mit seiner expliziten Szenendarstellung und differenzierbaren Rendering-Algorithmen garantiert 3DGS nicht nur Echtzeit-Rendering-Fähigkeiten, sondern führt auch ein beispielloses Maß an Kontrolle und Szenenbearbeitung ein. Dies positioniert 3DGS als potenziellen Game-Changer für die 3D-Rekonstruktion und -Darstellung der nächsten Generation. Zu diesem Zweck geben wir erstmals einen systematischen Überblick über die neuesten Entwicklungen und Anliegen im Bereich 3DGS.

Gestern wurde ich während des Interviews gefragt, ob ich irgendwelche Long-Tail-Fragen gestellt hätte, also dachte ich, ich würde eine kurze Zusammenfassung geben. Das Long-Tail-Problem des autonomen Fahrens bezieht sich auf Randfälle bei autonomen Fahrzeugen, also mögliche Szenarien mit geringer Eintrittswahrscheinlichkeit. Das wahrgenommene Long-Tail-Problem ist einer der Hauptgründe, die derzeit den betrieblichen Designbereich intelligenter autonomer Einzelfahrzeugfahrzeuge einschränken. Die zugrunde liegende Architektur und die meisten technischen Probleme des autonomen Fahrens wurden gelöst, und die verbleibenden 5 % der Long-Tail-Probleme wurden nach und nach zum Schlüssel zur Einschränkung der Entwicklung des autonomen Fahrens. Zu diesen Problemen gehören eine Vielzahl fragmentierter Szenarien, Extremsituationen und unvorhersehbares menschliches Verhalten. Der „Long Tail“ von Randszenarien beim autonomen Fahren bezieht sich auf Randfälle in autonomen Fahrzeugen (AVs). Randfälle sind mögliche Szenarien mit geringer Eintrittswahrscheinlichkeit. diese seltenen Ereignisse

0. Vorab geschrieben&& Persönliches Verständnis, dass autonome Fahrsysteme auf fortschrittlichen Wahrnehmungs-, Entscheidungs- und Steuerungstechnologien beruhen, indem sie verschiedene Sensoren (wie Kameras, Lidar, Radar usw.) verwenden, um die Umgebung wahrzunehmen, und Algorithmen und Modelle verwenden für Echtzeitanalysen und Entscheidungsfindung. Dies ermöglicht es Fahrzeugen, Verkehrszeichen zu erkennen, andere Fahrzeuge zu erkennen und zu verfolgen, das Verhalten von Fußgängern vorherzusagen usw. und sich so sicher an komplexe Verkehrsumgebungen anzupassen. Diese Technologie erregt derzeit große Aufmerksamkeit und gilt als wichtiger Entwicklungsbereich für die Zukunft des Transportwesens . eins. Aber was autonomes Fahren schwierig macht, ist herauszufinden, wie man dem Auto klarmachen kann, was um es herum passiert. Dies erfordert, dass der dreidimensionale Objekterkennungsalgorithmus im autonomen Fahrsystem Objekte in der Umgebung, einschließlich ihrer Standorte, genau wahrnehmen und beschreiben kann.

Der erste Pilot- und Schlüsselartikel stellt hauptsächlich mehrere häufig verwendete Koordinatensysteme in der autonomen Fahrtechnologie vor und erläutert, wie die Korrelation und Konvertierung zwischen ihnen abgeschlossen und schließlich ein einheitliches Umgebungsmodell erstellt werden kann. Der Schwerpunkt liegt hier auf dem Verständnis der Umrechnung vom Fahrzeug in den starren Kamerakörper (externe Parameter), der Kamera-in-Bild-Konvertierung (interne Parameter) und der Bild-in-Pixel-Einheitenkonvertierung. Die Konvertierung von 3D in 2D führt zu entsprechenden Verzerrungen, Verschiebungen usw. Wichtige Punkte: Das Fahrzeugkoordinatensystem und das Kamerakörperkoordinatensystem müssen neu geschrieben werden: Das Ebenenkoordinatensystem und das Pixelkoordinatensystem. Schwierigkeit: Sowohl die Entzerrung als auch die Verzerrungsaddition müssen auf der Bildebene kompensiert werden. 2. Einführung Insgesamt gibt es vier visuelle Systeme Koordinatensystem: Pixelebenenkoordinatensystem (u, v), Bildkoordinatensystem (x, y), Kamerakoordinatensystem () und Weltkoordinatensystem (). Es gibt eine Beziehung zwischen jedem Koordinatensystem,

Die Trajektorienvorhersage spielt eine wichtige Rolle beim autonomen Fahren. Unter autonomer Fahrtrajektorienvorhersage versteht man die Vorhersage der zukünftigen Fahrtrajektorie des Fahrzeugs durch die Analyse verschiedener Daten während des Fahrvorgangs. Als Kernmodul des autonomen Fahrens ist die Qualität der Trajektorienvorhersage von entscheidender Bedeutung für die nachgelagerte Planungssteuerung. Die Trajektorienvorhersageaufgabe verfügt über einen umfangreichen Technologie-Stack und erfordert Vertrautheit mit der dynamischen/statischen Wahrnehmung des autonomen Fahrens, hochpräzisen Karten, Fahrspurlinien, Fähigkeiten in der neuronalen Netzwerkarchitektur (CNN&GNN&Transformer) usw. Der Einstieg ist sehr schwierig! Viele Fans hoffen, so schnell wie möglich mit der Flugbahnvorhersage beginnen zu können und Fallstricke zu vermeiden. Heute werde ich eine Bestandsaufnahme einiger häufiger Probleme und einführender Lernmethoden für die Flugbahnvorhersage machen! Einführungsbezogenes Wissen 1. Sind die Vorschaupapiere in Ordnung? A: Schauen Sie sich zuerst die Umfrage an, S

Originaltitel: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Paper-Link: https://arxiv.org/pdf/2402.02519.pdf Code-Link: https://github.com/HKUST-Aerial-Robotics/SIMPL Autor: Hong Kong University of Science und Technologie DJI-Papieridee: Dieses Papier schlägt eine einfache und effiziente Bewegungsvorhersagebasislinie (SIMPL) für autonome Fahrzeuge vor. Im Vergleich zum herkömmlichen Agent-Cent

Vorab geschrieben und Ausgangspunkt Das End-to-End-Paradigma verwendet ein einheitliches Framework, um Multitasking in autonomen Fahrsystemen zu erreichen. Trotz der Einfachheit und Klarheit dieses Paradigmas bleibt die Leistung von End-to-End-Methoden für das autonome Fahren bei Teilaufgaben immer noch weit hinter Methoden für einzelne Aufgaben zurück. Gleichzeitig erschweren die in früheren End-to-End-Methoden weit verbreiteten Funktionen der dichten Vogelperspektive (BEV) die Skalierung auf mehr Modalitäten oder Aufgaben. Hier wird ein Sparse-Search-zentriertes End-to-End-Paradigma für autonomes Fahren (SparseAD) vorgeschlagen, bei dem die Sparse-Suche das gesamte Fahrszenario, einschließlich Raum, Zeit und Aufgaben, ohne dichte BEV-Darstellung vollständig abbildet. Insbesondere ist eine einheitliche, spärliche Architektur für die Aufgabenerkennung einschließlich Erkennung, Verfolgung und Online-Zuordnung konzipiert. Zudem schwer

Im vergangenen Monat hatte ich aus bekannten Gründen einen sehr intensiven Austausch mit verschiedenen Lehrern und Mitschülern der Branche. Ein unvermeidliches Thema im Austausch ist natürlich End-to-End und der beliebte Tesla FSDV12. Ich möchte diese Gelegenheit nutzen, einige meiner aktuellen Gedanken und Meinungen als Referenz und Diskussion darzulegen. Wie definiert man ein durchgängiges autonomes Fahrsystem und welche Probleme sollten voraussichtlich durchgängig gelöst werden? Gemäß der traditionellsten Definition bezieht sich ein End-to-End-System auf ein System, das Rohinformationen von Sensoren eingibt und für die Aufgabe relevante Variablen direkt ausgibt. Bei der Bilderkennung kann CNN beispielsweise als End-to-End bezeichnet werden, verglichen mit der herkömmlichen Methode zum Extrahieren von Merkmalen + Klassifizieren. Bei autonomen Fahraufgaben werden Eingabedaten verschiedener Sensoren (Kamera/LiDAR) benötigt
