End-to-End-Wettbewerb ist ein wichtiger Trend im heutigen Technologiebereich. Macht Li Auto in dieser Hinsicht einen Unterschied? Der PHP-Editor Youzi wird Ihnen eine ausführliche Diskussion über das End-to-End-Layout von Li Auto geben, von der PPT-Anzeige bis zur tatsächlichen Implementierung, um seine Hinweise zu erkunden.
Der „End-to-End“-Trend erfasst Chinas intelligente Fahrbranche.
Wenn in der zweiten Hälfte des Jahres 2024 ein Automobilhersteller beim Thema intelligentes Fahren nicht von „End-to-End“ spricht, wird er höchstwahrscheinlich als Rückstand angesehen.
Am 5. Juli veröffentlichte Li Auto eine neue Technologiearchitektur für autonomes Fahren, die auf dem End-to-End-Modell, dem visuellen VLM-Sprachmodell und dem Weltmodell basiert. Dabei handelt es sich im Wesentlichen um eine methodische Ausgabe des End-to-End-Pfades von Ideal Auto, das den nächsten Entwicklungspfad von Ideal Intelligent Driving umfassender darstellt.
Aus der Sicht von Huxiu Automobile gibt es in dieser Veröffentlichung drei Hauptschwerpunkte, die besondere Aufmerksamkeit verdienen: Wie unterscheidet sich das ideale „End-to-End“ von dem anderer Spieler? Wie weit ist die Entwicklung des idealen intelligenten Fahrens fortgeschritten? Und warum betont Ideal gerade jetzt die technischen Möglichkeiten des intelligenten Fahrens?
Im Vergleich zu Huawei ist die Lösung von Ideal radikaler
Werfen wir zunächst einen Blick auf die neue Technologiearchitektur für autonomes Fahren von Ideal. Inspiriert von der Theorie schneller und langsamer Systeme des Nobelpreisträgers Daniel Kahneman simuliert es menschliche Denk- und Entscheidungsprozesse im Bereich des autonomen Fahrens und nutzt dabei „schnelle Systeme“ und „langsame Systeme“ für die Zusammenarbeit.
Das schnelle System, auch bekannt als System 1, ist gut für die Bewältigung einfacher Aufgaben geeignet. Es ist eine auf Erfahrung und Gewohnheiten basierende menschliche Intuition, die ausreicht, um 95 % der Routineszenarien beim Fahren eines Fahrzeugs zu bewältigen.
Das langsame System, auch bekannt als System 2, ist das logische Denken, die komplexen Analyse- und Rechenfähigkeiten, die der Mensch durch tieferes Verständnis und Lernen entwickelt hat. Es wird verwendet, um komplexe oder sogar unbekannte Verkehrsszenarien beim Fahren eines Fahrzeugs zu lösen für 50 % der täglichen Fahrt etwa 5 %.
Unter diesem Architekturprototyp wird System 1 durch das End-to-End-Modell implementiert, das Sensoreingaben empfängt und die Fahrbahn zur Steuerung des Fahrzeugs direkt ausgibt. System 2 wird durch das visuelle Sprachmodell VLM implementiert. Nach dem Empfang von Sensoreingaben gibt es nach logischem Denken Entscheidungsinformationen an System 1 aus. Die aus dualen Systemen bestehende autonome Fahrfähigkeit wird anhand des Weltmodells in der Cloud trainiert und verifiziert.
Nach der idealen Theorie übernimmt das End-to-End-Modell von System 1 die One-Model-Lösung, die hauptsächlich aus Kameras und Lidar besteht, die vom CNN-Backbone-Netzwerk extrahiert, zusammengeführt und projiziert werden in den BEV-Bereich.
Darüber hinaus fügt Ideal am Eingabeende auch Fahrzeugstatusinformationen und Navigationsinformationen hinzu. Nach der Kodierung durch das Transformer-Modell werden diese mit BEV-Funktionen dekodiert, um dynamische Hindernisse, Straßenstrukturen und allgemeine Hindernisse zu dekodieren und die Fahrbahn zu planen.
Im Vergleich zu den segmentierten End-to-End-Lösungen von Herstellern wie Huawei und Xpeng ist die One-Model-Lösung von Ideal radikaler. Tesla ist ebenfalls eine One-Model-Lösung, aber seine Lösung „Eingabebild, Ausgabesteuerung“ geht über die ideale „Eingabe von Sensorinformationen, Ausgabe der Fahrbahn“ hinaus.
Es muss darauf hingewiesen werden, dass die aktuellen End-to-End-Pfade verschiedener Hersteller lediglich Unterschiede in der Auswahl darstellen und es keinen Unterschied zwischen Vor- und Nachteilen gibt. (Was die durchgängigen technischen Prinzipien betrifft, hat das Team von Huxiu Automobile im Artikel „Tesla zieht mit Huawei in den Krieg“ eine detaillierte Analyse bereitgestellt.)
Das Besondere an dieser idealen Architektur ist eigentlich System 2, nämlich Basierend auf der Algorithmusarchitektur des VLM-Visual-Language-Modells besteht es aus einem einheitlichen Transformer-Modell, das den Prompt-Text (Prompt-Wort) mit einem Tokenizer (Wortsegmentierer) codiert, die visuellen Informationen des zukunftsweisenden Kamerabilds und die Navigationskarteninformationen codiert , und verwendet dann das Bild und den Text, um die visuellen Informationen zu kodieren. Das Ausrichtungsmodul führt eine modale Ausrichtung durch und führt schließlich ein einheitliches autoregressives Denken durch, gibt das Verständnis der Umgebung, der treibenden Entscheidungen und der treibenden Trajektorien aus und übergibt sie zur Unterstützung an System 1 das Fahrzeug steuern.
Wenn System 2 in tatsächlichen Szenarien feststellt, dass die Straßenoberfläche während der Fahrt sehr holprig und uneben ist, sendet es eine Geschwindigkeitsreduzierungserinnerung an System 1 und informiert den Fahrer darüber, dass das Fahrzeug auf der mit Schlaglöchern übersäten Straße vor ihm langsam fahren wird, wodurch Unebenheiten reduziert werden ; oder es kann die Lage von Busspuren und Gezeitenspuren usw. identifizieren.
Im Idealfall entspricht System 2 einem Fahrschullehrer, der auf dem Beifahrersitz sitzt und das Fahrverhalten jederzeit überwacht. Es ist erwähnenswert, dass das große Sprachmodell XBrain von Xpeng und das große semantische Wahrnehmungsmodell für autonomes Fahren von Haomo ebenfalls über ähnliche Fähigkeiten verfügen.
Es wird berichtet, dass die ideale Parametermenge des VLM-Modells 2,2 Milliarden erreicht und die Inferenzzeit des VLM-Modells auf der Fahrzeugseite ebenfalls von 4,1 Sekunden auf 0,3 Sekunden optimiert wurde.
Neben dualen Systemen führte Ideal auch die Test- und Verifizierungsmethoden der End-to-End-Lösung ein. Der gängige Ansatz in der Branche besteht darin, Simulationstests mithilfe einer virtuellen 3D-Umgebung, rekonstruktiver Simulation, generativer Simulation usw. durchzuführen. Der ideale Ansatz besteht darin, die beiden technischen Wege der rekonstruierten Simulation und der generierten Simulation zu kombinieren, was der Rekonstruktion realer Fragen und der Generierung simulierter Fragen entspricht.
Tatsächlich verwendet Tesla auch große Modelle, um kontinuierliche Videos zu erstellen, um ein Weltmodell zu erstellen. Das große autonome Fahrmodell GAIA-1 des autonomen Fahrunternehmens Wayve (verfügt bereits über 9 Milliarden Parameter) kann auch Fahrszenenvideos generieren, Szenarien beschreiben und Vorhersagen treffen.
Im Allgemeinen besteht die ideale technische Architektur darin, duale Systeme auf der Fahrzeugseite einzusetzen. Das End-to-End-Modell von ONE Model ermöglicht es seinem autonomen Fahrsystem, sich so zu verhalten, wie es ein erfahrener menschlicher Fahrer ermöglichen kann Autonomes Fahren Das System verfügt über die gleichen logischen Denkfähigkeiten wie Menschen, während das Weltmodell eine Lern- und Prüfungsumgebung bietet und die Fähigkeit zur schnellen Iteration besitzt.
Laut Lang Fahrzeuge.
Allerdings ist es immer noch schwierig, diese Lösung den Benutzern bereitzustellen. Die ideale Lösung für AD Max-Benutzer in diesem Monat besteht darin, die bildfreie NOA-Lösung voranzutreiben.
Intelligentes Fahren läutet den Moment des Überholens ein
„End-to-End“ wird für verschiedene Hersteller zu einer wichtigen Richtung im Streben nach intelligentem Fahren.
Im März dieses Jahres konnte Yuanrong Qixing das End-to-End-Modell erfolgreich auf den Markt bringen; als Huawei im April Qiankun 3.0 veröffentlichte, gab das Unternehmen an, dass seine Technologie auf eine neue GOD/PDP-Netzwerkarchitektur umgestellt worden sei Vorentscheidungsplanung für ein Netzwerk; Xpeng 5 Im März wurde am AI DAY bekannt gegeben, dass das durchgängige Großmodell in Massenproduktion gegangen ist. Darüber hinaus haben Hersteller wie Weilai, Xiaomi, Xpeng und andere ihre Smart-Driving-Teams angepasst, um ein End-to-End-Layout durchzuführen.
Es ist ersichtlich, dass verschiedene Hersteller, darunter auch Tesla, derzeit die Richtung der End-to-End-Technologie erkunden. Obwohl die Optionen und Wege unterschiedlich sind, ist es sicher, dass End-to-End-Technologie End-to-End ist ist zur Richtung des intelligenten Fahrens geworden.
Ende-zu-Ende wird jedoch die Ober- und Untergrenzen des intelligenten Fahrsystems verstärken. Es kann zwar die Fähigkeiten des intelligenten Fahrens verbessern, bringt aber auch schwer zu lösende Sicherheitsprobleme mit sich Blackbox, die nicht interpretierbar ist, bringt einige Sicherheitsbedenken mit sich.
Während verschiedene Unternehmen um das Layout konkurrieren, ist Ideal der erste Automobilhersteller, der seine End-to-End-Technologielösungen im letzten Monat auf dem Chongqing-Forum offenlegte, was zu hitzigen Diskussionen in der Branche führte. Dieses Mal wurden auch die vollständigen Pläne für die technische Architektur angekündigt, von denen man sagen kann, dass sie im heißen Zustand in Kraft treten.
Angesichts der Tatsache, dass Lideal in der zweiten Jahreshälfte keine neuen Produkte auf den Markt bringen wird, kann seine erste Veröffentlichung im Bereich intelligenter Fahrfähigkeiten nicht nur die Popularität des Unternehmens aufrechterhalten, sondern auch die Wettbewerbsfähigkeit seiner bestehenden Produkte aufrechterhalten. Darüber hinaus bietet die Gestaltung des End-to-End-Technologiepfads Ideal auch die Möglichkeit, bei intelligenten Fahrfähigkeiten aufzuholen.
Verglichen mit dem segmentierten End-to-End-Ansatz von Huawei, Xiaopeng usw. ist die Umsetzung des idealen End-to-End-Modells schwieriger. Wie lange dauert der Übergang von der PPT zur Massenproduktion? Ist es effektiv? Sie müssen es trotzdem beobachten.
Laut dem von Chentao Capital veröffentlichten „End-to-End Autonomous Driving Industry Research Report“ könnten die modularen End-to-End-Lösungen inländischer Unternehmen für autonomes Fahren im Jahr 2025 in Massenproduktion gehen. Es ist ein Maultier oder ein Pferd, und nächstes Jahr ist es Zeit, damit spazieren zu gehen.
Artikelinhalt melden
Dieser Artikel wurde von Kuai Technology nachgedruckt. Die Meinungen im Artikel geben nur die persönlichen Ansichten des Autors wieder.
Das obige ist der detaillierte Inhalt vonIdeal, um am „End-to-End'-Wettbewerb teilzunehmen: auch wenn es nur ein PPT ist. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!