


„Reinforcement Learning' steht wieder auf der Titelseite von „Nature', und das neue Paradigma der Sicherheitsüberprüfung beim autonomen Fahren reduziert die Testkilometer erheblich
Einführung von dichtem Verstärkungslernen und Verwendung von KI zur Verifizierung von KI.
Schnelle Fortschritte in der autonomen Fahrzeugtechnologie (AV) bringen uns an die Schwelle einer Transportrevolution in einem Ausmaß, wie es seit der Einführung des Automobils vor einem Jahrhundert nicht mehr stattgefunden hat. Autonome Fahrtechnologie hat das Potenzial, die Verkehrssicherheit, Mobilität und Nachhaltigkeit erheblich zu verbessern und hat daher die Aufmerksamkeit von Industrie, Regierungsbehörden, Berufsverbänden und akademischen Einrichtungen auf sich gezogen.
Die Entwicklung selbstfahrender Autos hat in den letzten 20 Jahren große Fortschritte gemacht, insbesondere mit dem Aufkommen von Deep Learning. Im Jahr 2015 begannen Unternehmen anzukündigen, dass sie bis 2020 AV-Geräte in Massenproduktion produzieren würden. Bisher ist jedoch kein AV der Stufe 4 auf dem Markt verfügbar.
Es gibt viele Gründe für dieses Phänomen, aber der wichtigste ist, dass die Sicherheitsleistung selbstfahrender Autos immer noch deutlich geringer ist als die von menschlichen Fahrern. Für den durchschnittlichen Fahrer in den Vereinigten Staaten beträgt die Wahrscheinlichkeit einer Kollision in der natürlichen Fahrumgebung (NDE) etwa 1,9 × 10^−6 pro Meile. Im Vergleich dazu liegt die Disengagement-Rate bei hochmodernen autonomen Fahrzeugen laut den kalifornischen Disengagement Reports 2021 bei etwa 2,0 × 10^−5/Meile.
Hinweis: Die Abschaltrate ist ein wichtiger Indikator zur Bewertung der Zuverlässigkeit des autonomen Fahrens. Sie beschreibt, wie oft das System alle 1.000 Betriebsmeilen eine Übernahme durch den Fahrer erfordert. Je niedriger die Abschaltrate des Systems ist, desto besser ist die Zuverlässigkeit. Wenn die Abschaltrate gleich 0 ist, bedeutet dies, dass das autonome Fahrsystem zu einem gewissen Grad das fahrerlose Niveau erreicht hat.
Obwohl die Abschaltrate als voreingenommen kritisiert werden kann, wird sie häufig zur Bewertung der Sicherheitsleistung autonomer Fahrzeuge verwendet.
Ein wesentlicher Engpass bei der Verbesserung der Sicherheitsleistung autonomer Fahrzeuge ist die geringe Effizienz der Sicherheitsüberprüfung. Derzeit ist es beliebt, die zerstörungsfreie Prüfung autonomer Fahrzeuge durch eine Kombination aus Softwaresimulation, geschlossener Teststrecke und Straßentests zu testen. Infolgedessen müssen AV-Entwickler erhebliche wirtschaftliche und zeitliche Kosten für die Evaluierung tragen, was den Fortschritt der AV-Bereitstellung behindert.
Die Überprüfung der AV-Sicherheitsleistung in einer NDE-Umgebung ist sehr komplex. Beispielsweise sind Fahrumgebungen räumlich und zeitlich komplex, sodass die zur Definition solcher Umgebungen erforderlichen Variablen hochdimensional sind. Mit der exponentiellen Zunahme der Dimensionalität von Variablen steigt auch die Rechenkomplexität. In diesem Fall sind Deep-Learning-Modelle selbst bei großen Datenmengen schwer zu erlernen.
In diesem Artikel schlagen Forscher der University of Michigan, Ann Arbor, der Tsinghua University und anderer Institutionen eine D2RL-Methode (Dense Deep Reinforcement Learning) vor, um diese Herausforderung zu lösen.
Diese Studie ist auf dem Cover von Nature.
- Papieradresse: https://www.nature.com/articles/s41586-023-05732-2
- Projektadresse: https://github.com/michigan-traffic-lab/Dense-Deep -Reinforcement-Learning
Nach dem Verfassen der Abschlussarbeit ist er derzeit Tenure-Track-Assistenzprofessor in der Abteilung für Automatisierung der Tsinghua-Universität. Darüber hinaus ist er auch wissenschaftlicher Mitarbeiter an der University of Michigan Verkehrsforschungsinstitut (UMTRI). Er erhielt seinen Bachelor- und Doktorgrad in den Jahren 2014 und 2019 am Department of Automation der Tsinghua-Universität unter der Leitung von Professor Zhang Yi. Von 2017 bis 2019 war er Gastdoktorand im Bau- und Umweltingenieurwesen an der University of Michigan und studierte bei Professor Henry X. Liu (korrespondierender Autor dieses Artikels).
Einführung in die Forschung
Die Grundidee der D2RL-Methode besteht darin, nicht sicherheitskritische Daten zu identifizieren und zu entfernen und sicherheitskritische Daten zum Trainieren des neuronalen Netzwerks zu verwenden. Da nur ein kleiner Teil der Daten sicherheitskritisch ist, werden die restlichen Daten stark mit Informationen verdichtet.
Im Vergleich zur DRL-Methode kann die D2RL-Methode die Varianz der Richtliniengradientenschätzung um mehrere Größenordnungen erheblich reduzieren, ohne die Unvoreingenommenheit zu verlieren. Diese erhebliche Varianzreduzierung kann es neuronalen Netzen ermöglichen, Aufgaben zu lernen und zu erledigen, die für DRL-Methoden nicht zu bewältigen sind.
Für AV-Tests verwendet diese Forschung die D2RL-Methode, um Hintergrundfahrzeuge (BV) über neuronale Netze zu trainieren, um zu lernen, wann welche gegnerischen Operationen ausgeführt werden müssen, um die Testeffizienz zu verbessern. D2RL kann die für AVs erforderliche Testleistung in einer KI-basierten gegnerischen Testumgebung um mehrere Größenordnungen reduzieren und gleichzeitig unvoreingenommene Tests gewährleisten.
Die D2RL-Methode kann auf komplexe Fahrumgebungen angewendet werden, einschließlich mehrerer Autobahnen, Kreuzungen und Kreisverkehre, was mit früheren szenariobasierten Methoden nicht möglich war. Darüber hinaus kann die in dieser Studie vorgeschlagene Methode intelligente Testumgebungen schaffen, die KI zur Verifizierung von KI nutzen. Dies ist ein Paradigmenwechsel, der die Tür für beschleunigte Tests und Schulungen anderer sicherheitskritischer Systeme öffnet.
Um zu beweisen, dass die KI-basierte Testmethode effektiv ist, trainierte diese Studie BV anhand eines umfangreichen tatsächlichen Fahrdatensatzes und führte Simulationsexperimente und Feldexperimente auf physischen Teststrecken durch. Die experimentellen Ergebnisse sind in Abbildung 1 unten dargestellt.
Dense Deep Reinforcement Learning
Um die KI-Technologie zu nutzen, formuliert diese Studie das AV-Testproblem als Markov Decision Process (MDP), bei dem der Betrieb des BV auf der Grundlage aktueller Statusinformationen entschieden wird. Die Studie zielt darauf ab, eine Richtlinie (DRL-Agent) zu trainieren, die durch ein neuronales Netzwerk modelliert wird und die Aktionen von BVs steuert, die mit AVs interagieren, um die Bewertungseffizienz zu maximieren und Unvoreingenommenheit sicherzustellen. Allerdings ist es, wie oben erwähnt, aufgrund der Einschränkungen der Dimensionalität und der Rechenkomplexität schwierig oder sogar unmöglich, wirksame Richtlinien zu erlernen, wenn die DRL-Methode direkt angewendet wird.
Da die meisten Zustände unkritisch sind und keine Informationen für sicherheitskritische Ereignisse bereitstellen können, konzentriert sich D2RL auf die Entfernung von Daten aus diesen unkritischen Zuständen. Bei AV-Testproblemen können viele Sicherheitsmetriken genutzt werden, um kritische Zustände mit unterschiedlicher Effizienz und Wirksamkeit zu identifizieren. Die in dieser Studie verwendete Kritikalitätsmetrik ist eine externe Näherung der AV-Kollisionsrate innerhalb eines bestimmten Zeitrahmens des aktuellen Zustands (z. B. 1 Sekunde). Anschließend bearbeitete die Studie den Markov-Prozess, verwarf Daten für unkritische Zustände und nutzte die verbleibenden Daten für die Schätzung des Richtliniengradienten und Bootstrap für das DRL-Training.
Wie in Abbildung 2 unten dargestellt, besteht der Vorteil von D2RL im Vergleich zu DRL darin, dass es die Belohnung während des Trainingsprozesses maximieren kann.
AV-Simulationstest
Um die Genauigkeit, Effizienz, Skalierbarkeit und Allgemeingültigkeit der D2RL-Methode zu bewerten, wurden in dieser Studie Simulationstests durchgeführt. Für jeden Testsatz simulierte die Studie eine feste Verkehrsdistanz und zeichnete dann die Testergebnisse auf und analysierte sie, wie in Abbildung 3 unten dargestellt.
Um die Skalierbarkeit und Verallgemeinerung von D2RL weiter zu untersuchen, führte diese Studie AV-I-Modelle mit unterschiedlichen Spurnummern (2 Spuren und 3 Spuren) und Fahrstrecken (400 Meter, 2 Kilometer, 4 Kilometer und 25 km) durch . In diesem Artikel werden 25-Kilometer-Fahrten untersucht, da der durchschnittliche Pendler in den Vereinigten Staaten etwa 25 Kilometer in eine Richtung zurücklegt. Die Ergebnisse sind in Tabelle 1 dargestellt:
Das obige ist der detaillierte Inhalt von„Reinforcement Learning' steht wieder auf der Titelseite von „Nature', und das neue Paradigma der Sicherheitsüberprüfung beim autonomen Fahren reduziert die Testkilometer erheblich. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



PS "Laden" Probleme werden durch Probleme mit Ressourcenzugriff oder Verarbeitungsproblemen verursacht: Die Lesegeschwindigkeit von Festplatten ist langsam oder schlecht: Verwenden Sie Crystaldiskinfo, um die Gesundheit der Festplatte zu überprüfen und die problematische Festplatte zu ersetzen. Unzureichender Speicher: Upgrade-Speicher, um die Anforderungen von PS nach hochauflösenden Bildern und komplexen Schichtverarbeitung zu erfüllen. Grafikkartentreiber sind veraltet oder beschädigt: Aktualisieren Sie die Treiber, um die Kommunikation zwischen PS und der Grafikkarte zu optimieren. Dateipfade sind zu lang oder Dateinamen haben Sonderzeichen: Verwenden Sie kurze Pfade und vermeiden Sie Sonderzeichen. Das eigene Problem von PS: Installieren oder reparieren Sie das PS -Installateur neu.

Ein PS, der beim Booten auf "Laden" steckt, kann durch verschiedene Gründe verursacht werden: Deaktivieren Sie korrupte oder widersprüchliche Plugins. Eine beschädigte Konfigurationsdatei löschen oder umbenennen. Schließen Sie unnötige Programme oder aktualisieren Sie den Speicher, um einen unzureichenden Speicher zu vermeiden. Upgrade auf ein Solid-State-Laufwerk, um die Festplatte zu beschleunigen. PS neu installieren, um beschädigte Systemdateien oder ein Installationspaketprobleme zu reparieren. Fehlerinformationen während des Startprozesses der Fehlerprotokollanalyse anzeigen.

H5 -Seitenproduktionsprozess: Design: Plan -Seiten -Layout, Stil und Inhalt; HTML -Strukturkonstruktion: Verwenden Sie HTML -Tags, um ein Seitenrahmen zu erstellen. CSS -Stil Schreiben: Verwenden Sie CSS, um das Aussehen und das Layout der Seite zu steuern. Implementierung von JavaScript -Interaktion: Schreiben Sie Code, um Seitenanimationen und Interaktion zu erreichen. Leistungsoptimierung: Komprimieren Sie Bilder, Code und reduzieren HTTP -Anforderungen zur Verbesserung der Seitenladegeschwindigkeit.

In HTML5 kann die Wiedergabegeschwindigkeit des Videos über das PlaybackRate -Attribut gesteuert werden, das die folgenden Werte akzeptiert: Weniger als 1: langsame Wiedergabe gleich 1: Normale Geschwindigkeitswiedergabe größer als 1: Schneller Wiedergabe gleich 0: Pause in HTML5, das Video -Vollbild von Video kann durch die Anfrage durch die Anfrage realisiert werden.

Das Laden von Stottern tritt beim Öffnen einer Datei auf PS auf. Zu den Gründen gehören: zu große oder beschädigte Datei, unzureichender Speicher, langsame Festplattengeschwindigkeit, Probleme mit dem Grafikkarten-Treiber, PS-Version oder Plug-in-Konflikte. Die Lösungen sind: Überprüfen Sie die Dateigröße und -integrität, erhöhen Sie den Speicher, aktualisieren Sie die Festplatte, aktualisieren Sie den Grafikkartentreiber, deinstallieren oder deaktivieren Sie verdächtige Plug-Ins und installieren Sie PS. Dieses Problem kann effektiv gelöst werden, indem die PS -Leistungseinstellungen allmählich überprüft und genutzt wird und gute Dateimanagementgewohnheiten entwickelt werden.

Transparenteffekt -Produktionsmethode: Verwenden Sie das Auswahlwerkzeug und die Federung, um zusammenzuarbeiten: Wählen Sie transparente Bereiche und Federn, um Kanten zu erweichen. Ändern Sie den Schichtmischmodus und die Deckkraft, um die Transparenz zu steuern. Verwenden Sie Masken und Federn: Auswahl und Federbereiche; Fügen Sie Schichtmasken und Graustufengradientenkontrolle hinzu.

Die Lernschwierigkeit von H5 (HTML5) und JS (JavaScript) ist je nach Anforderungen unterschiedlich. Eine einfache statische Webseite muss nur H5 lernen, obwohl sie sehr interaktiv ist und die Front-End-Entwicklung erfordert, um JS zu meistern. Es wird empfohlen, zuerst H5 zu lernen und dann nach und nach JS zu lernen. H5 lernt hauptsächlich Tags und ist leicht zu beginnen. JS ist eine Programmiersprache mit einer steilen Lernkurve und erfordert das Verständnis von Syntax und Konzepten wie Verschluss und Prototypketten. In Bezug auf die Fallstricke beinhaltet H5 hauptsächlich Kompatibilität und semantische Verständnisabweichungen, während JS Syntax, asynchrone Programmier- und Leistungsoptimierung umfasst.

Die Produktion von H5 -Seiten erfordert: 1) HTML-, CSS- und JavaScript -Grundlagen; 2) reaktionsschnelle Designtechnologie; 3) Front-End-Frameworks (wie React, Vue); 4) Bildverarbeitungsfunktionen; 5) Gute Codespezifikationen und Debugging -Funktionen. Diese Fähigkeiten bilden einen vollständigen Rahmen, der durch Praxis und Fortschritt ergänzt wird, um eine hervorragende H5 -Seite zu erstellen.
