Tesla ist ein typisches KI-Unternehmen. Es hat im vergangenen Jahr 75.000 neuronale Netze trainiert, was bedeutet, dass alle 8 Minuten ein neues Modell produziert wird. Insgesamt werden 281 Modelle in Tesla-Autos verwendet. Als nächstes werden wir den Algorithmus und den Modellfortschritt von Tesla FSD in verschiedenen Aspekten interpretieren.
Eine der Schlüsseltechnologien von Tesla im Bereich Wahrnehmung in diesem Jahr ist das Occupancy Network. Studierende, die Robotik studieren, werden mit dem Belegungsraster auf jeden Fall vertraut sein. Es gibt an, ob jedes 3D-Voxel (Voxel) im Raum besetzt ist. Es kann eine binäre Darstellung von 0/1 oder eine zwischen [0, 1] sein.
Warum ist die Belegung wichtig für die Wahrnehmung des autonomen Fahrens? Denn während der Fahrt können wir zusätzlich zu häufigen Hindernissen wie Fahrzeugen und Fußgängern deren Position und Größe durch 3D-Objekterkennung abschätzen. Es gibt auch weitere Hindernisse mit langem Heck, die ebenfalls einen wichtigen Einfluss auf das Fahren haben. Zum Beispiel: 1. Verformbare Hindernisse, wie z. B. zweiteilige Anhänger, sind nicht für die Darstellung durch 3D-Begrenzungsrahmen geeignet. 2. Bei Hindernissen mit besonderer Form, wie z. B. umgekippte Fahrzeuge, ist die 3D-Lageschätzung ungültig Kategorien Hindernisse wie Steine und Müll auf der Straße können nicht klassifiziert werden. Daher hoffen wir, einen besseren Ausdruck zur Beschreibung dieser Long-Tail-Hindernisse zu finden und die Besetzung jeder Position im 3D-Raum, sogar die Semantik und Bewegung (Fluss), vollständig abzuschätzen.
Tesla verwendet das konkrete Beispiel im Bild unten, um die Leistungsfähigkeit des Occupancy Network zu demonstrieren. Im Gegensatz zu 3D-Boxen werden bei der Darstellung der Besetzung nicht zu viele geometrische Annahmen über das Objekt getroffen, sodass Objekte jeder Form und jeder Form der Objektbewegung modelliert werden können. Die Abbildung zeigt eine Szene, in der ein Bus mit zwei Abschnitten in Bewegung gesetzt wird, während Rot für stationäre Voxel steht begann sich zu bewegen. Der Abschnitt ruht noch.
Die Belegungsschätzung der beiden gestarteten Busse stellt die sich bewegenden Voxel und die rote die stationären Voxel dar. Die Modellstruktur des Belegungsnetzwerks ist in der folgenden Abbildung dargestellt. Erstens verwendet das Modell RegNet und BiFPN, um Funktionen von mehreren Kameras zu erhalten. Diese Struktur stimmt mit der Netzwerkstruktur überein, die beim letztjährigen KI-Tag geteilt wurde, was darauf hinweist, dass sich am Grundgerüst nicht viel geändert hat. Das Modell führt dann eine aufmerksamkeitsbasierte Multikamera-Fusion von 2D-Bildmerkmalen durch räumliche Abfrage mit 3D-Raumposition durch. Wie kann die Verbindung zwischen räumlicher 3D-Abfrage und 2D-Feature-Map realisiert werden? Die spezifische Fusionsmethode ist in der Abbildung nicht detailliert beschrieben, es gibt jedoch viele öffentliche Veröffentlichungen als Referenz. Ich denke, die wahrscheinlichste Lösung ist eine von zwei Lösungen. Die erste heißt 3D-zu-2D-Abfrage und projiziert die räumliche 3D-Abfrage auf der Grundlage der internen und externen Parameter jeder Kamera, um deren Merkmale zu extrahieren die entsprechende Position. Diese Methode wurde in DETR3D vorgeschlagen, und BEVFormer und PolarFormer haben diese Idee ebenfalls übernommen. Die zweite besteht darin, die Positionseinbettung zu verwenden, um eine implizite Zuordnung durchzuführen, dh jeder Position der 2D-Feature-Map eine angemessene Positionseinbettung hinzuzufügen, z. B. interne und externe Parameter der Kamera, Pixelkoordinaten usw., und das Modell dann die Entsprechung lernen zu lassen zwischen 2D- und 3D-Features. Als nächstes wird das Modell einer Zeitreihenfusion unterzogen. Die Implementierungsmethode besteht darin, den 3D-Merkmalsraum basierend auf den bekannten Positions- und Lageänderungen des eigenen Fahrzeugs zu verbinden.
Occupancy-Netzwerkstruktur
Nach der Feature-Fusion dekodiert ein auf Dekonvolution basierender Decoder die Belegung, Semantik und den Fluss jeder 3D-Raumposition. Auf der Pressekonferenz wurde betont, dass die Ausgabeauflösung durch den Speicher begrenzt sei, da die Ausgabe dieses Netzwerks dicht sei. Ich glaube, dass dies auch allen Studenten, die Bildsegmentierung durchführen, große Kopfschmerzen bereitet. Darüber hinaus handelt es sich hier um eine 3D-Segmentierung, aber beim autonomen Fahren werden sehr hohe Anforderungen an die Auflösung gestellt (~10 cm). Daher wird am Ende des Modells, inspiriert von der neuronalen impliziten Darstellung, ein zusätzlicher implizit abfragbarer MLP-Decoder entworfen. Durch Eingabe eines beliebigen Koordinatenwerts (x, y, z) können die Informationen der räumlichen Position, also der Besetzung, dekodiert werden , Semantik, Fluss. Diese Methode durchbricht die Beschränkung der Modellauflösung, was meiner Meinung nach ein Highlight des Designs ist.
Planung ist ein weiteres wichtiges Modul des autonomen Fahrens, bei dem Tesla diesmal hauptsächlich die Modellierung der Interaktion an komplexen Kreuzungen in den Vordergrund stellt. Warum ist Interaktionsmodellierung so wichtig? Da das zukünftige Verhalten anderer Fahrzeuge und Fußgänger ein gewisses Maß an Unsicherheit aufweist, muss ein intelligentes Planungsmodul mehrere Interaktionen zwischen eigenen Fahrzeugen und anderen Fahrzeugen online vorhersagen, die mit jeder Interaktion verbundenen Risiken bewerten und schließlich entscheiden, welche Strategie angewendet wird verfolgen.
Tesla nennt das von ihnen verwendete Planungsmodell Interaction Search, das hauptsächlich aus drei Hauptschritten besteht: Baumsuche, Trajektorienplanung im neuronalen Netzwerk und Trajektorienbewertung.
1. Die Baumsuche ist ein häufig verwendeter Algorithmus für die Trajektorienplanung. Sie kann verschiedene interaktive Situationen effektiv erkennen und optimale Lösungen finden. Die größte Schwierigkeit bei der Verwendung von Suchmethoden zur Lösung von Trajektorienplanungsproblemen besteht jedoch zu groß. Beispielsweise kann es an einer komplexen Kreuzung 20 mit einem selbst verbundene Fahrzeuge geben, die zu mehr als 100 Interaktionsmethoden kombiniert werden können, und jede Interaktionsmethode kann Dutzende räumlich-zeitlicher Trajektorien als Kandidaten haben. Daher verwendete Tesla nicht die Flugbahnsuchmethode, sondern ein neuronales Netzwerk, um die Zielpositionen (Ziele) zu bewerten, die nach einer gewissen Zeit erreicht werden könnten, und um eine kleine Anzahl besserer Ziele zu erhalten.
2. Nachdem wir das Ziel bestimmt haben, müssen wir eine Flugbahn bestimmen, um das Ziel zu erreichen. Herkömmliche Planungsmethoden verwenden häufig die Optimierung, um das Optimierungsproblem zu lösen. Wenn in den vorherigen Schritten viele Kandidatenziele angegeben wurden, ist dies nicht möglich das Problem im Hinblick auf den Zeitaufwand lösen. Daher schlug Tesla vor, ein weiteres neuronales Netzwerk für die Flugbahnplanung zu verwenden, um eine hochparallele Planung für mehrere mögliche Ziele zu erreichen. Es gibt zwei Quellen für Trajektorienbezeichnungen zum Trainieren dieses neuronalen Netzwerks: Die erste ist die Trajektorie des echten menschlichen Fahrens, aber wir wissen, dass die Trajektorie des menschlichen Fahrens möglicherweise nur eine von vielen besseren Lösungen ist, daher ist die zweite Quelle die Offline-Optimierung Vom Algorithmus erzeugte Trajektorienlösungen.
3. Nachdem wir eine Reihe realisierbarer Trajektorien erhalten haben, müssen wir eine optimale Lösung auswählen. Die hier gewählte Lösung besteht darin, die erhaltene Flugbahn zu bewerten. Die Bewertungslösung kombiniert künstlich formulierte Risikoindikatoren, Komfortindikatoren und einen Scorer für ein neuronales Netzwerk.
Durch die Entkopplung der oben genannten drei Schritte hat Tesla ein effizientes Trajektorienplanungsmodul implementiert, das die Interaktion berücksichtigt. Es gibt nicht viele Artikel, auf die ich mich bei der Trajektorienplanung basierend auf neuronalen Netzen beziehen kann. Ich habe einen Artikel veröffentlicht, der sich auf diese Methode bezieht. Außerdem wird das Problem der Trajektorienvorhersage in die oben genannten drei Schritte zerlegt: Ziel Scoring, Flugbahnplanung, Flugbahnbewertung. Interessierte Leser können sich über die Details informieren. Darüber hinaus hat unsere Forschungsgruppe Fragen im Zusammenhang mit Verhaltensinteraktion und -planung untersucht, und jeder ist herzlich eingeladen, sich unsere neueste Arbeit InterSim[6] anzuschauen.
Struktur des Interaktionssuchplanungsmodells
Ich persönlich denke, dass ein weiteres großes technisches Highlight dieses KI-Tages das Online-Vektorkarten-Konstruktionsmodell Lanes Network ist. Studenten, die letztes Jahr auf den AI Day geachtet haben, erinnern sich vielleicht daran, dass Tesla eine vollständige Online-Segmentierung und Erkennung von Karten im BEV-Bereich durchgeführt hat. Warum wollen wir also immer noch Lanes Network aufbauen? Da die segmentierten Fahrspuren auf Pixelebene für die Trajektorienplanung nicht ausreichen, müssen wir auch die Topologie der Fahrspurlinien ermitteln, um zu wissen, dass unser Auto von einer Fahrspur auf eine andere wechseln kann.
Werfen wir zunächst einen Blick darauf, was eine Vektorkarte ist. Wie im Bild gezeigt, besteht die Vektorkarte von Tesla aus einer Reihe blauer Spurmittellinien und einigen Schlüsselpunkten (Verbindungspunkt, Gabelungspunkt usw.). zusammenführen), und ihre Verbindungsbeziehung wird in Form eines Diagramms ausgedrückt.
Vektorkarte, die Punkte sind die Schlüsselpunkte der Fahrspurlinie und das Blau ist die Mittellinie der Fahrspur
Lanes Network ist ein Decoder, der in Bezug auf die Modellstruktur auf dem Rückgrat des Wahrnehmungsnetzwerks basiert. Im Vergleich zur Dekodierung der Belegung und Semantik jedes Voxels ist es schwieriger, eine Reihe dünner, verbundener Spurlinien zu dekodieren, da die Anzahl der Ausgänge nicht festgelegt ist und zwischen den Ausgangsgrößen logische Beziehungen bestehen.
Tesla greift im Natural-Language-Modell auf den Transformer-Decoder zurück und gibt die Ergebnisse autoregressiv sequentiell aus. Im Hinblick auf die spezifische Implementierung müssen wir zunächst eine Generierungsreihenfolge auswählen (z. B. von links nach rechts, von oben nach unten) und den Raum diskretisieren (Tokenisierung). Dann können wir Lanes Network verwenden, um eine Reihe diskreter Token vorherzusagen. Wie in der Abbildung gezeigt, sagt das Netzwerk zunächst die grobe Position (Index: 18) und die genaue Position (Index: 31) eines Knotens voraus und sagt dann die Semantik des Knotens voraus („Start“, der Ausgangspunkt des Knotens). Fahrspurlinie) und schließlich die Verbindungseigenschaften vorhersagen, wie z. B. Gabelungs-/Zusammenführungs-/Krümmungsparameter usw. Das Netzwerk generiert alle Fahrspurlinienknoten auf diese autoregressive Weise.
Lanes-Netzwerk-Netzwerkstruktur
Wir sollten beachten, dass die autoregressive Sequenzgenerierung kein Patent des Sprachtransformatormodells ist. Unsere Forschungsgruppe hat in den letzten Jahren auch zwei verwandte Artikel zur Generierung von Vektorkarten veröffentlicht, HDMapGen[7] und VectorMapNet[8]. HDMapGen verwendet das Graph Neural Network with Attention (GAT), um die Schlüsselpunkte der Vektorkarte autoregressiv zu generieren, was der Lösung von Tesla ähnelt. VectorMapNet verwendet Detection Transformer (DETR), um dieses Problem zu lösen und eine festgelegte Vorhersagelösung zu verwenden, um Vektorkarten schneller zu generieren. Ergebnisse der HDMapGen-Vektorkartengenerierung
Automatische Etikettierung war letztes Jahr auch Teslas KI-Technologie, die Day hat erklärt, dass sich die diesjährige automatische Annotation auf die automatische Annotation von Lanes Network konzentriert. Tesla-Fahrzeuge können täglich 500.000 Fahrten (Fahrten) zurücklegen, und die sinnvolle Nutzung dieser Fahrdaten kann dazu beitragen, die Spurlinien besser vorherzusagen.
Die automatische Spurmarkierung von Tesla besteht aus drei Schritten:
1 Verwenden Sie die Technologie der visuellen Trägheits-Odometrie (visuelle Trägheits-Odometrie), um hochpräzise Flugbahnen für alle Fahrten abzuschätzen.2. Die Kartenrekonstruktion mehrerer Fahrzeuge und mehrerer Fahrten ist der wichtigste Schritt in diesem Plan. Die grundlegende Motivation für diesen Schritt besteht darin, dass verschiedene Fahrzeuge denselben Ort aus unterschiedlichen räumlichen Winkeln und zu unterschiedlichen Zeiten beobachten können, sodass die Aggregation dieser Informationen zu einer besseren Kartenrekonstruktion führen kann. Zu den technischen Punkten dieses Schritts gehören der geometrische Abgleich zwischen Karten und die gemeinsame Optimierung der Ergebnisse. 3. Automatische Fahrspurmarkierung für neue Fahrten. Wenn wir über hochpräzise Offline-Kartenrekonstruktionsergebnisse verfügen und eine neue Fahrt stattfindet, können wir einen einfachen geometrischen Abgleich durchführen, um den pseudowahren Wert (Pseudolabel) der neuen Fahrtspurlinie zu erhalten. Diese Methode zum Erhalten pseudowahrer Werte ist manchmal sogar besser als die manuelle Annotation (nachts, an regnerischen und nebligen Tagen).
Automatische Beschriftung des Lanes Network
Die Simulation visueller Bilder ist in den letzten Jahren eine beliebte Richtung in der Computer Vision. Beim autonomen Fahren besteht der Hauptzweck der visuellen Simulation darin, gezielt einige seltene Szenen zu generieren und so das Glück in echten Fahrversuchen zu vermeiden. Tesla hatte zum Beispiel schon immer Kopfschmerzen, wenn ein großer Lastwagen mitten auf der Straße lag. Aber die visuelle Simulation ist kein einfaches Problem. Für eine komplexe Kreuzung (Market Street in San Francisco) benötigt der Designer zwei Wochen, um die Lösung mithilfe traditioneller Modellierung und Darstellung zu erreichen. Die KI-basierte Lösung von Tesla dauert jetzt nur noch 5 Minuten.
Visuelle Simulation rekonstruierter Kreuzung
Konkret besteht die Voraussetzung für die visuelle Simulation darin, automatisch beschriftete Straßeninformationen aus der realen Welt und eine umfangreiche Grafikmaterialbibliothek vorzubereiten. Fahren Sie dann nacheinander mit den folgenden Schritten fort:
1. Fahrbahnerzeugung: Füllen Sie die Straßenoberfläche entsprechend dem Bordstein, einschließlich Straßenneigung, Material und anderen detaillierten Informationen.
2. Fahrspurliniengenerierung: Zeichnen Sie Fahrspurlinieninformationen auf der Straßenoberfläche.
3. Pflanzen- und Gebäudegenerierung: Erzeugen und rendern Sie zufällig Pflanzen und Häuser auf und neben Straßen. Der Zweck der Generierung von Pflanzen und Gebäuden besteht nicht nur in der visuellen Schönheit, sondern auch in der Simulation des Okklusionseffekts, der durch diese Objekte in der realen Welt verursacht wird.
4. Generieren Sie andere Straßenelemente: wie Ampeln, Straßenschilder und Importfahrspuren und Verbindungsbeziehungen.
5. Fügen Sie dynamische Elemente wie Fahrzeuge und Fußgänger hinzu.
Lassen Sie uns abschließend kurz über die Grundlage von Teslas Reihe von Softwaretechnologien sprechen, bei der es sich um eine leistungsstarke Infrastruktur handelt. Das Supercomputing-Zentrum von Tesla verfügt über 14.000 GPUs und insgesamt 30 PB Datencache, und jeden Tag fließen 500.000 neue Videos in diese Supercomputer. Um diese Daten effizienter zu verarbeiten, hat Tesla speziell eine beschleunigte Videodekodierungsbibliothek sowie ein Dateiformat .smol entwickelt, das das Lesen und Schreiben von Zwischenfunktionen beschleunigt. Darüber hinaus hat Tesla auch ein eigenes Chip-Dojo für das Supercomputing-Zentrum entwickelt, das wir hier nicht näher erläutern.
Supercomputing-Zentrum für Videomodelltraining
Mit der Veröffentlichung von Tesla AI Day-Inhalten in den letzten zwei Jahren haben wir Tesla langsam klar in Bezug auf die Technologielandschaft gesehen In Richtung autonomes (unterstütztes) Fahren haben wir auch gesehen, dass Tesla selbst ständig an sich selbst iteriert, beispielsweise von der 2D-Wahrnehmung, der BEV-Wahrnehmung bis hin zum Occupancy Network. Autonomes Fahren ist eine lange Reise von Tausenden von Kilometern. Was unterstützt die Entwicklung der Tesla-Technologie? Ich denke, es gibt drei Punkte: vollständige Szenenverständnisfähigkeiten durch visuelle Algorithmen, Modelliterationsgeschwindigkeit unterstützt durch leistungsstarke Rechenleistung und Generalisierung durch umfangreiche Daten. Sind das nicht die drei Säulen des Deep-Learning-Zeitalters?
Das obige ist der detaillierte Inhalt vonInterpretation der autonomen Fahralgorithmen und -modelle von Tesla. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!