Monokulares Sehen ist die magische Waffe von Mobileye (ME). Tatsächlich dachte man damals auch an binokulares Sehen, entschied sich aber schließlich dafür, aufzugeben.
Worauf basieren monokulare Entfernungsmessung und 3D-Schätzung? Es ist die Bounding Box (BB), die das Ziel erkennt. Wenn das Hindernis nicht erkannt werden kann, kann das System seine Entfernung und 3D-Lage/Ausrichtung nicht schätzen. Ohne tiefes Lernen schätzt ME die Entfernung hauptsächlich basierend auf dem BB, der durch die Kamerakalibrierung erhaltenen Haltung und Höhe und der Annahme, dass die Straßenoberfläche gerade ist.
Mit Deep Learning kann das NN-Modell auf der Grundlage der 3D-Grundwahrheit trainiert werden, um 3D-Größen- und Lageschätzungen zu erhalten. Die Entfernung wird auf der Grundlage des Parallellinienprinzips (Einzelansichtsmesstechnik) ermittelt. Die von Baidu Apollo vor kurzem angekündigte monokulare L3-Lösung erklärt es klarer. Das Referenzpapier lautet „3D Bounding Box Estimation by Deep Learning and Geometry“. Natürlich kann das Fernglas Parallaxe und Tiefe berechnen, auch wenn dies nicht der Fall ist Erkannte Hindernisse (der Detektor ist aufgrund der zusätzlichen Tiefeninformationen besser als ein Monokular) lösen ebenfalls einen Alarm aus. Das Problem besteht darin, dass es für ein binokulares Sichtsystem nicht so einfach ist, die Disparität abzuschätzen. Ein typisches Problem beim Computersehen ist, dass eine breite Basislinie zu genauen Entfernungsmessungsergebnissen für entfernte Ziele führt, während eine kurze Basislinie zu guten Entfernungsmessungsergebnissen führt In der Nähe von Zielen gibt es hier einen Kompromiss.
Das aktuelle ADAS-Binokularsichtsystem auf dem Markt ist Subaru EyeSight, und seine Leistung soll in Ordnung sein.
Der von Baidu eingeführte Shuttlebus Apollo L4 wird in einer Massenproduktion von 100 Einheiten hergestellt und ist mit einem Fernglassystem ausgestattet. Das EU-Projekt zum autonomen Parken V-Charge nutzt ebenfalls ein vorwärtsgerichtetes binokulares Sichtsystem, ebenso wie das autonome Fahrforschungs- und -entwicklungssystem Berta Benz, das in das Radarsystem integriert ist. Darunter ist der binokulare Matching-Hinderniserkennungsalgorithmus Stixel sehr bekannt. Tier-1-Unternehmen wie Bosch und Conti haben in der Vergangenheit ebenfalls binokulare Sehlösungen entwickelt, diese hatten jedoch keine Auswirkungen auf den Markt und wurden Berichten zufolge eingestellt.
Apropos Schwierigkeiten des Fernglassystems: Neben der Stereoanpassung gibt es auch die Kalibrierung. Das kalibrierte System wird „driften“, daher ist eine Online-Kalibrierung ein Muss. Das Gleiche gilt für Monokulare, da sich Reifenverformungen und Stöße der Fahrzeugkarosserie auf die Änderungen der externen Parameter der Kamera auswirken und einige Parameter wie Nick- und Gierwinkel online kalibriert und korrigiert werden müssen.
Die binokulare Online-Kalibrierung ist komplizierter, da die binokulare Anpassung so weit wie möglich auf die 1-D-Suche vereinfacht wird, sodass die optischen Achsen der beiden Linsen durch Stereogleichrichtung parallel und senkrecht zur Grundlinie sein müssen. Daher werden Händler im Vergleich zum erzielten Gewinn aufgeben, wenn dies aufgrund der erhöhten Komplexität und Kosten nicht rentabel ist.
Das binokulare Sehen wurde kürzlich erneut erwähnt, weil das Silicon-Valley-Chipunternehmen Ambarella 2014 das Vis Lab der Universität Parma in Italien erwarb und nach der CES im vergangenen Jahr binokulare ADAS und autonome Fahrchips entwickelte. Enterprise und Tier-1. Darüber hinaus forscht Ambarella derzeit weiter, um die Leistung des Systems zu verbessern.
Das Bild unten ist ein schematisches Diagramm von sechs Paaren von Stereosichtsystemen, die auf dem Dach des Autos installiert sind. Ihre Basislinienbreiten können unterschiedlich sein, und die effektiven Erkennungsabstände sind entsprechend unterschiedlich. Der Autor fuhr einmal mit seinem selbstfahrenden Auto und konnte 200 Meter in die Ferne und 20 bis 30 Meter in die Ferne sehen. Es kann tatsächlich jederzeit eine Online-Kalibrierung durchführen und einige binokulare Sehparameter anpassen.
01 Stereo-Matching
ist
Die sichtbare Parallaxe kann den Tiefenwert umgekehrt berechnen. Am schwierigsten ist es jedoch, festzustellen, ob die von der linken und rechten Linse gesehenen Bilder dasselbe Ziel darstellen, d. h. das Übereinstimmungsproblem.
Es gibt zwei Matching-Methoden, die globale Methode und die lokale Methode. Es gibt vier Schritte beim binokularen Matching:
SGM dient dazu, eine globale Optimierung in eine Kombination mehrerer lokaler Optimierungsprobleme zu approximieren. Die folgende Formel ist die Optimierungszielfunktion des 2D-Matchings, die als Summe mehrerer 1D-Optimierungspfade implementiert wird
Das Bild unten zeigt die Pfadoptimierungsfunktion entlang der horizontalen Richtung.
Census Transform wandelt 8/24-Bit-Pixel in eine Binärsequenz um. Eine weitere binäre Funktion heißt LBP (Local Binary Pattern). ähnlich. Der Stereo-Matching-Algorithmus basiert auf dieser Transformation und wandelt das Matching in eine Minimierungssuche der Hamming-Distanz um. Intels RealSense erwarb ein 1994 auf Basis dieser Technologie gegründetes Binokular-Vision-Startup-Unternehmen, erwarb außerdem mehrere andere kleine Unternehmen und fusionierte sie, um diese Technologie zu schaffen.
Die folgende Abbildung ist ein schematisches Diagramm der CS-Transformation:
PatchMatch ist ein Algorithmus, der den Bildvorlagenabgleich beschleunigt und bei der Berechnung des optischen Flusses und der Disparitätsschätzung verwendet wird. Microsoft Research hat zuvor ein Projekt durchgeführt, das auf der 3D-Rekonstruktion einer monokularen Mobiltelefonkamera basiert und das zuvor erfolgreiche KinectFusion basierend auf dem RGB-D-Algorithmus nachahmt, mit einem ähnlichen Namen wie MonoFusion, bei dem die Tiefenkartenschätzung eine modifizierte PatchMatch-Methode verwendet .
Die Grundidee besteht darin, die Disparitäts- und Ebenenparameter zufällig zu initialisieren und dann die Schätzung durch Informationsweitergabe zwischen benachbarten Pixeln zu aktualisieren. Der PM-Algorithmus ist in fünf Schritte unterteilt:
1) Räumliche Ausbreitung: Jedes Pixel überprüft die Disparitäts- und Ebenenparameter der linken und oberen Nachbarn und ersetzt die aktuelle Schätzung, wenn die Anpassungskosten kleiner werden
2) Ansichtsausbreitung: Transformieren Sie Pixel aus anderen Ansichten, überprüfen Sie die Schätzung des entsprechenden Bildes und ersetzen Sie es, wenn es kleiner wird
Lassen Sie uns über die Online-Kalibrierung sprechen.
Die andere Methode basiert auf VO und SLAM, was komplizierter ist, aber gleichzeitig eine kartenbasierte Positionierung durchführen kann. Die Verwendung von SLAM für die Online-Kalibrierung ist für Hochfrequenzoperationen nicht geeignet. Die folgende Abbildung zeigt das Flussdiagramm des Algorithmus: Schritte 1 bis 4: Erhalten der globalen kontinuierlichen Karte durch Stereovision SLAM. Schritt 5 gibt die anfängliche Schätzung der binokularen Kamera an Transformation, Schritt 6: Fassen Sie die Karten aller Stereokameras in einer Karte zusammen; ermitteln Sie die Posen zwischen mehreren Kameras in den Schritten 7–8.
Ähnlich wie bei der monokularen Methode kann die Online-Kalibrierung unter der Annahme, dass die Fahrspurlinien parallel sind und die Straße flach ist, schnell abgeschlossen werden Fluchtpunkttheorie: Gehen Sie von einem flachen Straßenmodell, klaren Längslinien der Fahrspur und keinen anderen Objekten mit parallelen Kanten aus; die Fahrgeschwindigkeit muss niedrig sein und die Fahrspurlinien müssen kontinuierlich sein Der Höhen-/Schrägwinkel der linken Kamera relativ zur Straßenoberfläche (Gier-/Rollwinkel) ist relativ klein. Auf diese Weise kann der Driftbetrag der binokularen externen Parameter durch Vergleich mit dem initialisierten Fluchtpunkt (bezogen auf) berechnet werden Offline-Kalibrierung) (Abbildung 5-269). Der Algorithmus dient dazu, den Höhen-/Neigungswinkel der Kamera vom Fluchtpunkt aus zu schätzen.
#🎜 🎜# Hier sind einige typische binokulare autonome Fahrsysteme.
Der von Berta Benz übernommene Hinderniserkennungsalgorithmus Stixel basiert auf folgenden Annahmen: Die Ziele in der Szene werden als Säulen beschrieben, der Schwerpunkt des Ziels ist auf dem Boden stehend und jedes Ziel Der obere Teil ist tiefer als der untere Teil. Die folgende Abbildung (a–d) stellt vor, wie SGM-Disparitätsergebnisse Stixel-Segmentierungsergebnisse generieren: Stixels Schematische Darstellung: (a) Berechnung des freien Fahrraums basierend auf dynamischer Programmierung (b) Attributwerte in der Höhensegmentierung (c) Kostenbild (Graustufenwerte umgekehrt) (d) Höhensegmentierung.
Dies ist das Blockdiagramm und die neuen Ergebnisse von Stixel, nachdem sie Deep Learning für die Parallaxenfusion hinzugefügt haben:
#🎜 🎜#
Einführung eines frühen binokularen Hindernisalgorithmus von VisLab, des Generic Obstacle and Lane Detection System (GOLD). Basierend auf IPM (Inverse Perspective Mapping) werden Fahrspurlinien erkannt und Hindernisse auf der Straße basierend auf der Differenz zwischen den linken und rechten Bildern berechnet:(a) Links (b) Rechts (c) Neu zugeordnet nach links. (d) Neu zugeordneter Unterschied zwischen neu zugeordneten Ansichten (f) Der von beiden Kameras sichtbare Straßenbereich (b) Neu zugeordnet . (e) Binarisiert. 🎜🎜#Dies sind VisLab-Fahrzeuge, die am autonomen Fahrwettbewerb VIAC (VisLab Intercontinental Autonomous Challenge) teilnehmen und neben binokularen Kameras auch über Lidar als Hilfsmittel zur Straßenklassifizierung verfügen.
Dies ist das Flussdiagramm zur binokularen Hinderniserkennung: Die Disparitätsschätzung nutzt den SGM-Algorithmus und den SAD-basierten Korrelationsalgorithmus.
Zwei DSI-Raumfilter (Disparity Space Image) werden in der Nachbearbeitung hinzugefügt, siehe Abbildung 5-274 Die eine ist die Glättungsverarbeitung und die andere die Bewegungstrajektorienverarbeitung basierend auf der Trägheitsnavigation (IMU).
Der Hinderniserkennungsalgorithmus verwendet die JPL-Methode und gruppiert Hindernisse basierend auf den räumlichen Anordnungsmerkmalen und den physikalischen Eigenschaften des Fahrzeugs. Zu den physikalischen Eigenschaften gehören die maximale Höhe (Fahrzeug), die minimale Höhe (Hindernis) und die maximal befahrbare Reichweite der Straße. Diese Einschränkungen definieren einen Raumkegelstumpf (Kegelstumpf), wie in der Abbildung dargestellt, und dann im Clustering-Prozess. alles fällt. Punkte innerhalb des Kegelstumpfes werden als Hindernisse bezeichnet.
Um den Disparitätsschätzungsalgorithmus zu beschleunigen, wird die Methode zur Division von DSI übernommen:
Eine weitere klassische Methode besteht darin, die Straßenparallaxe basierend auf der Straßengleichung zu erhalten (Stereovision). , und berechnen Sie die Straßenoberfläche basierend auf diesen Hindernissen:
Im Allgemeinen basiert die Methode der binokularen Erkennung von Hindernissen im Wesentlichen auf Disparitätskarten, und es gibt viele Methoden, die darauf basieren auf der Straßenoberflächesparallaxe. Vielleicht werden mit der rasanten Entwicklung des Deep Learning und der Verbesserung der Computerplattformen auch binokulare autonome Fahrsysteme populär.
Das obige ist der detaillierte Inhalt vonLassen Sie uns aus technischer Sicht darüber sprechen, warum es schwierig ist, binokulare autonome Fahrsysteme populär zu machen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!