Im vergangenen Monat hatte ich aus bekannten Gründen einen sehr intensiven Austausch mit verschiedenen Lehrern und Mitschülern der Branche. Ein unvermeidliches Thema im Austausch ist natürlich End-to-End und der beliebte Tesla FSD V12. Ich möchte diese Gelegenheit nutzen, einige meiner aktuellen Gedanken und Meinungen als Referenz und Diskussion darzulegen.
Nach der traditionellsten Definition bezieht sich ein End-to-End-System auf ein System, das Rohinformationen von Sensoren eingibt und für die Aufgabe relevante Variablen direkt ausgibt. Bei der Bilderkennung kann CNN beispielsweise als End-to-End bezeichnet werden, verglichen mit der herkömmlichen Methode zum Extrahieren von Merkmalen + Klassifizieren. Bei autonomen Fahraufgaben werden Daten verschiedener Sensoren (Kameras/LiDAR/Radar/IMU etc.) eingegeben und Steuersignale für den Fahrzeugantrieb (Gas-/Lenkradwinkel etc.) direkt ausgegeben. Um das Anpassungsproblem zwischen verschiedenen Modellen zu berücksichtigen, kann die Ausgabe auch auf die Flugbahn des Fahrzeugs gelockert werden. Dies ist eine Definition im traditionellen Sinne, oder was ich eine enge End-to-End-Definition nenne. Auf dieser Grundlage wurden auch einige Zwischenaufgabenüberwachungen abgeleitet, um die Leistungsfähigkeit zu verbessern.
Allerdings sollten wir neben einer so engen Definition auch darüber nachdenken, was im Wesentlichen die Essenz von End-to-End ist. Ich denke, die Essenz von End-to-End sollte die verlustfreie Übertragung sensorischer Informationen sein. Erinnern wir uns zunächst daran, wie die Schnittstelle zwischen Sensor- und PnC-Modulen in einem Nicht-Ende-zu-Ende-System aussieht. Im Allgemeinen verfügen wir über eine Erkennung/Attributanalyse/Vorhersage für Whitelist-Objekte (Autos, Personen usw.) und haben ein Verständnis für die statische Umgebung (Straßenstruktur/Geschwindigkeitsbegrenzung/Ampeln usw.), wenn wir dies häufiger tun sorgfältig, Wir werden auch einige Erkennungsarbeiten für allgemeine Hindernisse durchführen. Aus makroökonomischer Sicht ist die durch die Wahrnehmung ausgegebene Information eine Abstraktion komplexer Fahrszenarien und eine explizit manuell definierte Abstraktion. Für einige ungewöhnliche Szenarien kann die aktuelle explizite Abstraktion jedoch die Faktoren, die das Fahrverhalten in der Szene beeinflussen, nicht vollständig ausdrücken, oder die Aufgaben, die wir definieren müssen, sind zu zahlreich und zu trivial, und es ist schwierig, alle erforderlichen Aufgaben aufzuzählen. Daher bietet das End-to-End-System eine (möglicherweise implizite) umfassende Darstellung und hofft, solche Informationen automatisch und verlustfrei auf den PnC anzuwenden. Ich denke, dass alle Systeme, die solche Anforderungen erfüllen können, als „generalisiertes End-to-End“ bezeichnet werden können. Was andere Probleme angeht, wie etwa die Optimierung dynamischer Interaktionsszenarien, bin ich persönlich der Meinung, dass zumindest nicht nur End-to-End diese Probleme lösen kann, sondern auch traditionelle Methoden. Wenn die Datenmenge groß genug ist, kann End-to-End natürlich eine ziemlich gute Lösung sein. Ob dies notwendig ist, wird in den nächsten Fragen besprochen.
Einige Missverständnisse über durchgängig autonomes Fahren?Wenn Sie dem Konzept des allgemeinen Ende-zu-Ende zustimmen können, ist dieses Problem leicht zu lösen verstehen. End-to-End legt Wert auf die verlustfreie Übertragung von Informationen und nicht auf die direkte Ausgabe des Aufgabenvolumens. Eine solche End-to-End-Verarbeitungsmethode erfordert eine große Anzahl verdeckter Lösungen, um die Sicherheit zu gewährleisten, und wird während des Implementierungsprozesses auch auf einige Probleme stoßen, die sich in der nachfolgenden Verarbeitung allmählich entfalten.
Das End-to-End-System muss auf großen Modellen oder reiner Vision basieren
Das Konzept des durchgängigen autonomen Fahrens hat keinen notwendigen Zusammenhang mit autonomem Fahren mit großen Modellen und rein visuellem autonomem Fahren . Diese drei Konzepte existieren völlig unabhängig voneinander. Ein End-to-End-System muss nicht unbedingt von einem großen Modell im herkömmlichen Sinne gesteuert werden und ist auch nicht notwendigerweise rein visuell. Es gibt einige Verbindungen zwischen den dreien, aber sie sind nicht gleichwertig.
Ich habe zuvor einen Artikel geschrieben, in dem die Beziehung zwischen diesen Konzepten näher erläutert wurde: https://zhuanlan.zhihu.com/p/664189972
Ist das oben Genannte auf lange Sicht möglich? Ist das erwähnte End-to-End-System im engeren Sinne möglich, autonomes Fahren über L3-Niveau zu erreichen?Eigentlich möchte ich mich zuerst beschweren: Diejenigen, die behaupten, große Modelle zu verwenden, um L4 zu untergraben, haben nie L4 gemacht; diejenigen, die behaupten, alle Krankheiten durchgängig heilen zu können, haben nie PnC gemacht. Nach Gesprächen mit vielen End-to-End-Begeisterten entwickelte sich daraus ein rein religiöser Streit, der weder verifiziert noch verfälscht werden kann. Wir Studierenden, die sich in Spitzenforschung und -entwicklung engagieren, sollten dennoch pragmatischer sein und auf Evidenz achten. . . Zumindest sollten Sie über einige Grundkenntnisse darüber verfügen, was Sie untergraben möchten, und die heiklen Probleme verstehen, die damit verbunden sind. Dies ist die grundlegende wissenschaftliche Qualität, die Sie haben sollten. . . Um auf das Thema zurückzukommen: Im Moment bin ich pessimistisch. Ungeachtet der Tatsache, dass der FSD derzeit behauptet, rein durchgängig zu sein, erreicht seine Leistung bei weitem nicht die Zuverlässigkeit und Stabilität, die oberhalb des L3-Niveaus erforderlich ist. Selbst wenn dieses Fahrzeug statistisch gesehen so sicher ist wie ein Mensch, Es wird immer noch so sicher sein müssen, wie ein menschlicher Fehler beim Ausrichten. Um es deutlicher auszudrücken: Wenn ein autonomes Fahrsystem von der Öffentlichkeit und der öffentlichen Meinung akzeptiert werden soll, liegt der Schlüssel möglicherweise nicht in der absoluten Unfall- und Todesrate, sondern darin, ob die Öffentlichkeit akzeptieren kann, dass es bestimmte Szenarien gibt, in denen dies der Fall ist Für den Menschen relativ einfach zu lösen, wohingegen Maschinen Fehler machen. Für ein reines End-to-End-System ist diese Anforderung schwieriger zu erfüllen. Genauer gesagt wurde es in einer Antwort erklärt, die ich vor 21 Jahren gegeben habe. Weitere Informationen finden Sie unter: So sehen Sie Robin Lis Moments-Beitrag: Fahrerloses Fahren wird definitiv einen Unfall verursachen, aber die Wahrscheinlichkeit ist viel geringer als die von bemanntem Fahren? https://www.zhihu.com/question/530828899/answer/2590673435?utm_psn=1762524415009697792 Nehmen Sie Waymo und Cruise in Nordamerika als Beispiele, aber warum ist Cruise zuletzt aufgetaucht? Welcher Unfall ist für die Aufsichtsbehörden und die Öffentlichkeit besonders inakzeptabel? Dieser Unfall verursachte zwei Verletzte. Der erste Zusammenstoß war für menschliche Fahrer recht schwer zu vermeiden, aber eigentlich akzeptabel. Nach dieser Kollision kam es jedoch zu schwerwiegenden Folgeverletzungen: Das System schätzte den Ort des Zusammenstoßes und den Ort der Verletzten falsch ein. Um den Verkehr nicht zu behindern, schaltete es auf den Überrollmodus zurück und schleifte die Verletzten lange mit. Ein solches Verhalten würde kein normaler menschlicher Fahrer tun, und die Auswirkungen sind sehr schlimm. Dieser Vorfall führte direkt zu einigen weiteren Unruhen in Cruise. Dieser Vorfall hat für uns tatsächlich Alarm geschlagen. Wie man solche Dinge verhindern kann, sollte bei der Entwicklung und dem Betrieb autonomer Fahrsysteme eine ernsthafte Überlegung sein. Was sind also derzeit die praktischen Lösungen für die nächste Generation serienmäßig hergestellter Fahrassistenzsysteme? Um es einfach auszudrücken: Ich denke, ein geeignetes System sollte zunächst die Obergrenze der Fähigkeiten des traditionellen Systems vollständig ausloten und es dann mit durchgängiger Flexibilität und Universalität kombinieren, was ein progressives End-to-System darstellt -Endlösung. Wie man beides organisch kombiniert, ist natürlich ein bezahlter Inhalt, haha. . . Aber wir können analysieren, was der sogenannte End-to-End- oder lernbasierte Planer jetzt tatsächlich macht. Es bietet lediglich eine erste Lösung für ein solches Optimierungs- und Suchproblem wir direkt Was ist mit der Optimierung und Suche nach solchen Flugbahnen? Tatsächlich ist Schachspielen ein Beispiel, das dem autonomen Fahren sehr ähnlich ist. Erst im Februar dieses Jahres veröffentlichte Deepmind einen Artikel (Grandmaster-Level Chess Without Search: https://arxiv.org/abs/2402.04494). Bei der Untersuchung, ob es möglich ist, in AlphaGo und AlphaZero nur die datengesteuerte Suche zu verwenden und auf die MCTS-Suche zu verzichten. Eine Analogie zum autonomen Fahren besteht darin, dass nur ein Netzwerk zur direkten Ausgabe von Aktionen verwendet wird und alle nachfolgenden Schritte verworfen werden. Die Schlussfolgerung des Artikels ist, dass bei einem beträchtlichen Umfang an Daten und Modellparametern ein vernünftiges Ergebnis ohne Suche erzielt werden kann. Im Vergleich zur Methode plus Suche besteht jedoch immer noch eine sehr große Lücke. (Der Vergleich hier im Artikel ist eigentlich nicht fair. Der tatsächliche Abstand müsste sogar noch größer sein.) Gerade wenn es darum geht, einige schwierige Endspiele zu lösen, ist die rein datengesteuerte Leistung sehr schlecht. Diese Analogie zum autonomen Fahren bedeutet, dass es in schwierigen Szenarien oder Eckfällen, die mehrstufige Spiele erfordern, immer noch schwierig ist, herkömmliche Optimierungs- oder Suchalgorithmen vollständig aufzugeben. Die sinnvolle Nutzung der Vorteile verschiedener Technologien wie AlphaZero ist der effizienteste Weg, die Leistung zu verbessern. Auch dieses Konzept muss im Umgang mit vielen Menschen immer wieder korrigiert werden. Solange es nicht rein datengesteuert ist, wird es nach der Definition vieler Menschen als regelbasiert bezeichnet. Nehmen wir noch einmal das Beispiel des Schachspielens. Das Auswendiglernen von Formeln und Schachaufzeichnungen basiert auf Regeln, aber wenn man dem Modell Denkfähigkeiten durch Suche und Optimierung wie AlphaGo und AlphaZero verleiht, kann man es meines Erachtens nicht als regelbasiert bezeichnen. Genau das fehlt dem aktuellen großen Modell selbst und was Forscher durch CoT und andere Methoden einem lernbasierten Modell zu verleihen versuchen. Allerdings hat jede Handlung einer fahrenden Person eine klare Motivation, die sich von Aufgaben wie der rein datengesteuerten Bilderkennung unterscheidet, bei der die Gründe nicht klar beschrieben werden können. Bei einem geeigneten Entwurf einer Algorithmenarchitektur sollen Entscheidungsverläufe zu Variablen werden und unter der Führung eines wissenschaftlichen Ziels einheitlich optimiert werden. Anstatt verschiedene Probleme durch gewaltsames Anwenden von Patches und Anpassen von Parametern zu beheben. Ein solches System wird natürlich keine seltsamen Hardcode-Regeln haben. End-to-End mag ein vielversprechender technischer Weg sein, aber es gibt noch viel zu erforschen, wie ein solches Konzept in die Praxis umgesetzt werden kann. Ist es die einzig richtige Lösung, Daten und Modellparameter anzuhäufen? Meiner Meinung nach ist dies derzeit nicht der Fall. Ich bin der Meinung, dass wir als Spitzenforschungstechniker jederzeit die von Musk erwähnten ersten Prinzipien und Ingenieursdenken verfolgen und über den Kern des Problems aus der Praxis nachdenken sollten, anstatt Musk selbst zum ersten Prinzip zu machen . Wer ganz weit vorne sein will, sollte nicht aufgeben und sich an die Aussagen anderer halten, sonst muss man in Kurven immer wieder versuchen zu überholen. Wie lässt sich die Beziehung zwischen datengesteuerten und traditionellen Methoden vereinbaren?
Traditionelle Methode = regelbasiert, wenn sonst?
Zusammenfassung
Das obige ist der detaillierte Inhalt vonSprechen wir über End-to-End- und autonome Fahrsysteme der nächsten Generation sowie über einige Missverständnisse über End-to-End-Autonomes Fahren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!