Inhaltsverzeichnis
Denk- und Zweifelspunkte beim Lesen:
Verlust Funktion ist nicht komplex.
Tatsächlich verwendet GAIA-1 bereits die Idee des Timing Mask AutoEncoder, aber die Überwachungsdaten sind anders A Es kann jeweils den gesamten Datenrahmen verarbeiten, UniPAD wählt jedoch zufällig einen Teil der Maske im 3D-Raum aus, um die Vorhersage zu überwachen. Ich freue mich wirklich darauf, eine Möglichkeit zu finden, beides zu kombinieren.
Dieser Artikel sollte als relativ neue Masked Autoencoder-Methode im 3D-Bereich angesehen werden. Da die MAE-Methode in der Vortrainingsphase des Basismodells verwendet wird, unterstützt sie mehrere verschiedene Informationsmodalitäten, sodass sie natürlich auf viele nachgelagerte Feinabstimmungsaufgaben erweitert werden kann. Dies kommt der Designidee von sehr nahe LLM, das sich auf die Vorschulungsphase konzentriert, erfasst multimodale Informationen und bietet eine einheitliche Grundlage für verschiedene Aufgaben. Diese Methode bietet neue Ideen und Möglichkeiten für die Forschung im 3D-Bereich.
Heim Technologie-Peripheriegeräte KI UniPAD: Universeller Vortrainingsmodus für autonomes Fahren! Verschiedene Wahrnehmungsaufgaben können unterstützt werden

UniPAD: Universeller Vortrainingsmodus für autonomes Fahren! Verschiedene Wahrnehmungsaufgaben können unterstützt werden

Nov 10, 2023 am 11:17 AM
自动驾驶 训练

In letzter Zeit werden neue Artikel so schnell veröffentlicht, dass ich das Gefühl habe, sie nicht lesen zu können. Es ist ersichtlich, dass die Fusion multimodaler großer Modelle für Sprache und Vision zu einem Branchenkonsens geworden ist. Dieser Artikel auf UniPad ist repräsentativer und bietet multimodale Eingaben und ein vorab trainiertes Basismodell für weltähnliche Modelle. und gleichzeitig ist eine einfache Erweiterung auf mehrere herkömmliche Bildverarbeitungsanwendungen möglich. Es löst auch das Problem der Anwendung der Vortrainingsmethode großer Sprachmodelle auf 3D-Szenen und bietet so die Möglichkeit eines einheitlichen großen Modells der Wahrnehmungsbasis.

UniPAD ist eine selbstüberwachte Lernmethode, die auf MAE und 3D-Rendering basiert. Sie kann ein Basismodell mit hervorragender Leistung trainieren und anschließend nachgelagerte Aufgaben am Modell verfeinern und trainieren, wie z. B. Tiefenschätzung, Objekterkennung und Segmentierung. Diese Studie hat eine einheitliche 3D-Raumdarstellungsmethode entwickelt, die leicht in 2D- und 3D-Frameworks integriert werden kann, eine größere Flexibilität aufweist und mit der Positionierung des Basismodells übereinstimmt

Denk- und Zweifelspunkte beim Lesen:

Welche Beziehung besteht zwischen? maskierte Autoencoding-Technologie und 3D-differenzierbare Rendering-Technologie? Einfach ausgedrückt: Bei der maskierten automatischen Kodierung geht es darum, die selbstüberwachten Trainingsfunktionen von Autoencoder zu nutzen, und bei der „Rendering-Technologie“ geht es darum, die Verlustfunktion zwischen dem generierten Bild und dem Originalbild zu berechnen und ein überwachtes Training durchzuführen. Die Logik ist also immer noch sehr klar.

Dieser Artikel verwendet die Vortrainingsmethode des Basismodells

und optimiert dann die Downstream-Erkennungsmethode und die Segmentierungsmethode. Diese Methode kann auch dabei helfen, zu verstehen, wie das aktuelle große Modell mit nachgelagerten Aufgaben funktioniert.

Es scheint, dass die Timing-Informationen nicht kombiniert werden

. Immerhin ist NuScenes NDS von Pure Vision 50.2 im Vergleich zu Timing-Erkennungsmethoden (StreamPETR, Sparse4D usw.) derzeit noch schwächer. Daher ist auch die 4D-MAE-Methode einen Versuch wert. Tatsächlich hat GAIA-1 bereits eine ähnliche Idee erwähnt. Wie sieht es mit der Berechnungsmenge und der Speichernutzung aus?

Spezifische Methode:

UniPAD kodiert implizit räumliche 3D-Informationen. In diesem Artikel wird eine generative Maske zur Vervollständigung der Voxelfunktionen verwendet um die kontinuierlichen 3D-Formstrukturen in der Szene und ihre komplexen Erscheinungsmerkmale auf der 2D-Ebene zu rekonstruieren.

Unsere experimentellen Ergebnisse beweisen voll und ganz die Überlegenheit von UniPAD. Im Vergleich zu herkömmlichen Lidar-, Kamera- und Lidar-Kamera-Fusionsbasislinien verbessert sich der NDS von UniPAD um 9,1, 7,7 bzw. 6,9. Bemerkenswert ist, dass unsere Pre-Training-Pipeline beim nuScenes-Validierungssatz einen NDS von 73,2 und gleichzeitig einen mIoU-Score von 79,4 bei der semantischen 3D-Segmentierungsaufgabe erreichte und damit die besten Ergebnisse im Vergleich zu früheren Methoden erzielte

Gesamtarchitektur:

UniPAD: Universeller Vortrainingsmodus für autonomes Fahren! Verschiedene Wahrnehmungsaufgaben können unterstützt werdenGesamtarchitektur. Das Framework verwendet LiDar- und Multi-Shot-Bilder als Eingabe und diese multimodalen Daten werden über den Maskengenerator mit Nullen gefüllt. Die maskierte Einbettung wird in den Voxelraum umgewandelt und Rendering-Techniken werden verwendet, um RGB- oder Tiefenvorhersagen in diesem 3D-Raum zu generieren. Zu diesem Zeitpunkt kann das Originalbild, das nicht durch die Maske verdeckt wird, als generierte Daten für überwachtes Lernen verwendet werden.

Maskengenerator

Die Maske im Masked AutoEncoder wird vom Maskengenerator generiert. Dies kann als Verbesserung der Darstellungsfähigkeit und Generalisierungsfähigkeit des Modells durch Erhöhen der Trainingsschwierigkeit verstanden werden. Ein Maskengenerator wird eingeführt, um durch selektives Verdecken bestimmter Bereiche zwischen Punktwolkendaten und Bilddaten zu unterscheiden. Bei den Punktwolkendaten wird die Blockmaskierungsstrategie angewendet, bei den Bilddaten wird die Methode der spärlichen Faltung angewendet und die Berechnung erfolgt nur im sichtbaren Bereich. Wenn die Eingabedaten maskiert werden, werden die nachfolgenden Codierungsmerkmale im entsprechenden maskierten Bereich auf 0 gesetzt und bei der Modellverarbeitung ignoriert. Außerdem werden Informationen für das nachfolgende überwachte Lernen bereitgestellt, die zur Vorhersage des Ziels und der entsprechenden Groundtruth-Informationen verwendet werden können

Einheitliche Darstellung

Um die Pre-Training-Methode auf verschiedene Datenmodalitäten anwendbar zu machen, ist es wichtig, eine einheitliche Darstellung zu finden. Frühere Methoden wie BEV und OCC streben nach einer einheitlichen Form der Identifizierung. Die Projektion von 3D-Punkten in die Bildebene führt zum Verlust von Tiefeninformationen, und bei der Zusammenführung dieser Punkte in die BEV-Vogelperspektive gehen höhenbezogene Details verloren. Daher wird in diesem Artikel vorgeschlagen, beide Modalitäten in einen 3D-Volumenraum umzuwandeln, bei dem es sich um einen 3D-Voxelraum ähnlich dem OCC handelt Artikel bestanden Abtaststrahlen ähnlich wie NERF passieren Mehransichtsbilder oder Punktwolken, sagen die Farbe oder Tiefe jedes 3D-Punkts über die neuronale Netzwerkstruktur voraus und erhalten schließlich die 2D-Abbildung über den vom Strahl durchlaufenen Pfad. Dadurch können geometrische oder Texturhinweise in Bildern besser genutzt und die Lernfähigkeit und der Anwendungsbereich des Modells verbessert werden.

Wir stellen die Szene als SDF (implizites vorzeichenbehaftetes Distanzfunktionsfeld) dar, wenn die Eingabe die 3D-Koordinaten des Abtastpunkts P (die entsprechende Tiefe entlang des Strahls D) und F (die Merkmalseinbettung) sind, die aus der volumetrischen Darstellung extrahiert werden können trilineare Interpolation) kann SDF als MLP betrachtet werden, um den SDF-Wert des Abtastpunkts vorherzusagen. Hier kann F als der Kodierungscode verstanden werden, an dem sich Punkt P befindet. Dann wird die Ausgabe erhalten: N (Bedingung des Farbfelds auf der Oberflächennormalen) und H (Geometriemerkmalsvektor). Zu diesem Zeitpunkt kann das RGB des 3D-Abtastpunkts durch ein MLP mit P, D, F, N erhalten werden , H als Eingabewert und Tiefenwert und überlagern Sie dann die 3D-Abtastpunkte durch Strahlen mit dem 2D-Raum, um das Rendering-Ergebnis zu erhalten. Die Methode, Ray hier zu verwenden, ist im Grunde die gleiche wie bei Nerf.

Die Rendering-Methode muss auch den Speicherverbrauch optimieren, der hier nicht aufgeführt ist. Bei diesem Problem handelt es sich jedoch um ein kritischeres Implementierungsproblem. Der Kern der

Mask- und Rendering-Methoden besteht darin, ein vorab trainiertes Modell zu trainieren. Das vorab trainierte Modell kann auf der Grundlage der vorhergesagten Maske trainiert werden, auch ohne nachfolgende Verzweigungen. Die anschließende Arbeit des vorab trainierten Modells generiert RGB- und Tiefenvorhersagen über verschiedene Zweige und optimiert Aufgaben wie Zielerkennung/semantische Segmentierung, um Plug-and-Play-Funktionen zu erreichen:

Verlust Funktion ist nicht komplex.

UniPAD: Universeller Vortrainingsmodus für autonomes Fahren! Verschiedene Wahrnehmungsaufgaben können unterstützt werdenExperimentelle Ergebnisse:

UniPAD: Universeller Vortrainingsmodus für autonomes Fahren! Verschiedene Wahrnehmungsaufgaben können unterstützt werden

UniPAD: Universeller Vortrainingsmodus für autonomes Fahren! Verschiedene Wahrnehmungsaufgaben können unterstützt werdenVergleich mit anderen neueren Arbeiten:

Tatsächlich verwendet GAIA-1 bereits die Idee des Timing Mask AutoEncoder, aber die Überwachungsdaten sind anders A Es kann jeweils den gesamten Datenrahmen verarbeiten, UniPAD wählt jedoch zufällig einen Teil der Maske im 3D-Raum aus, um die Vorhersage zu überwachen. Ich freue mich wirklich darauf, eine Möglichkeit zu finden, beides zu kombinieren.

Darüber hinaus kann UniPAD als Versuch angesehen werden, ein multimodales Großmodell aufzubauen, bzw. als Weltmodell. Obwohl der Artikel diese nicht besonders hervorhebt.

Zusammenfassung:

Dieser Artikel sollte als relativ neue Masked Autoencoder-Methode im 3D-Bereich angesehen werden. Da die MAE-Methode in der Vortrainingsphase des Basismodells verwendet wird, unterstützt sie mehrere verschiedene Informationsmodalitäten, sodass sie natürlich auf viele nachgelagerte Feinabstimmungsaufgaben erweitert werden kann. Dies kommt der Designidee von sehr nahe LLM, das sich auf die Vorschulungsphase konzentriert, erfasst multimodale Informationen und bietet eine einheitliche Grundlage für verschiedene Aufgaben. Diese Methode bietet neue Ideen und Möglichkeiten für die Forschung im 3D-Bereich.

Diese Methode hat nicht nur Potenzial im 3D-Bereich, sondern kann auch auf den 4D-Timing-Bereich ausgeweitet werden und kann auch im Hinblick auf die Optimierung des Speichers und des Rechenvolumens viel neue Arbeit generieren und neue Ideen und Möglichkeiten für die Zukunft liefern Forschung.

Originallink: https://mp.weixin.qq.com/s/e_reCS-Lwr-KVF80z56_owUniPAD: Universeller Vortrainingsmodus für autonomes Fahren! Verschiedene Wahrnehmungsaufgaben können unterstützt werden

Das obige ist der detaillierte Inhalt vonUniPAD: Universeller Vortrainingsmodus für autonomes Fahren! Verschiedene Wahrnehmungsaufgaben können unterstützt werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Open Source! Jenseits von ZoeDepth! DepthFM: Schnelle und genaue monokulare Tiefenschätzung! Open Source! Jenseits von ZoeDepth! DepthFM: Schnelle und genaue monokulare Tiefenschätzung! Apr 03, 2024 pm 12:04 PM

0.Was bewirkt dieser Artikel? Wir schlagen DepthFM vor: ein vielseitiges und schnelles generatives monokulares Tiefenschätzungsmodell auf dem neuesten Stand der Technik. Zusätzlich zu herkömmlichen Tiefenschätzungsaufgaben demonstriert DepthFM auch hochmoderne Fähigkeiten bei nachgelagerten Aufgaben wie dem Tiefen-Inpainting. DepthFM ist effizient und kann Tiefenkarten innerhalb weniger Inferenzschritte synthetisieren. Lassen Sie uns diese Arbeit gemeinsam lesen ~ 1. Titel der Papierinformationen: DepthFM: FastMonocularDepthEstimationwithFlowMatching Autor: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Wie lässt sich das Long-Tail-Problem in autonomen Fahrszenarien lösen? Wie lässt sich das Long-Tail-Problem in autonomen Fahrszenarien lösen? Jun 02, 2024 pm 02:44 PM

Gestern wurde ich während des Interviews gefragt, ob ich irgendwelche Long-Tail-Fragen gestellt hätte, also dachte ich, ich würde eine kurze Zusammenfassung geben. Das Long-Tail-Problem des autonomen Fahrens bezieht sich auf Randfälle bei autonomen Fahrzeugen, also mögliche Szenarien mit geringer Eintrittswahrscheinlichkeit. Das wahrgenommene Long-Tail-Problem ist einer der Hauptgründe, die derzeit den betrieblichen Designbereich intelligenter autonomer Einzelfahrzeugfahrzeuge einschränken. Die zugrunde liegende Architektur und die meisten technischen Probleme des autonomen Fahrens wurden gelöst, und die verbleibenden 5 % der Long-Tail-Probleme wurden nach und nach zum Schlüssel zur Einschränkung der Entwicklung des autonomen Fahrens. Zu diesen Problemen gehören eine Vielzahl fragmentierter Szenarien, Extremsituationen und unvorhersehbares menschliches Verhalten. Der „Long Tail“ von Randszenarien beim autonomen Fahren bezieht sich auf Randfälle in autonomen Fahrzeugen (AVs). Randfälle sind mögliche Szenarien mit geringer Eintrittswahrscheinlichkeit. diese seltenen Ereignisse

Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Die Vitalität der Superintelligenz erwacht! Aber mit der Einführung der sich selbst aktualisierenden KI müssen sich Mütter keine Sorgen mehr über Datenengpässe machen Die Vitalität der Superintelligenz erwacht! Aber mit der Einführung der sich selbst aktualisierenden KI müssen sich Mütter keine Sorgen mehr über Datenengpässe machen Apr 29, 2024 pm 06:55 PM

Ich weine zu Tode. Die Daten im Internet reichen überhaupt nicht aus. Das Trainingsmodell sieht aus wie „Die Tribute von Panem“, und KI-Forscher auf der ganzen Welt machen sich Gedanken darüber, wie sie diese datenhungrigen Esser ernähren sollen. Dieses Problem tritt insbesondere bei multimodalen Aufgaben auf. Zu einer Zeit, als sie ratlos waren, nutzte ein Start-up-Team der Abteilung der Renmin-Universität von China sein eigenes neues Modell, um als erstes in China einen „modellgenerierten Datenfeed selbst“ in die Realität umzusetzen. Darüber hinaus handelt es sich um einen zweigleisigen Ansatz auf der Verständnisseite und der Generierungsseite. Beide Seiten können hochwertige, multimodale neue Daten generieren und Datenrückmeldungen an das Modell selbst liefern. Was ist ein Modell? Awaker 1.0, ein großes multimodales Modell, das gerade im Zhongguancun-Forum erschienen ist. Wer ist das Team? Sophon-Motor. Gegründet von Gao Yizhao, einem Doktoranden an der Hillhouse School of Artificial Intelligence der Renmin University.

Die Kuaishou-Version von Sora „Ke Ling' steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren Die Kuaishou-Version von Sora „Ke Ling' steht zum Testen offen: Sie generiert über 120 Sekunden Videos, versteht die Physik besser und kann komplexe Bewegungen genau modellieren Jun 11, 2024 am 09:51 AM

Was? Wird Zootopia durch heimische KI in die Realität umgesetzt? Zusammen mit dem Video wird ein neues groß angelegtes inländisches Videogenerationsmodell namens „Keling“ vorgestellt. Sora geht einen ähnlichen technischen Weg und kombiniert eine Reihe selbst entwickelter technologischer Innovationen, um Videos zu produzieren, die nicht nur große und vernünftige Bewegungen aufweisen, sondern auch die Eigenschaften der physischen Welt simulieren und über starke konzeptionelle Kombinationsfähigkeiten und Vorstellungskraft verfügen. Den Daten zufolge unterstützt Keling die Erstellung ultralanger Videos von bis zu 2 Minuten mit 30 Bildern pro Sekunde, mit Auflösungen von bis zu 1080p und unterstützt mehrere Seitenverhältnisse. Ein weiterer wichtiger Punkt ist, dass es sich bei Keling nicht um eine vom Labor veröffentlichte Demo oder Video-Ergebnisdemonstration handelt, sondern um eine Anwendung auf Produktebene, die von Kuaishou, einem führenden Anbieter im Bereich Kurzvideos, gestartet wurde. Darüber hinaus liegt das Hauptaugenmerk darauf, pragmatisch zu sein, keine Blankoschecks auszustellen und sofort nach der Veröffentlichung online zu gehen. Das große Modell von Ke Ling wurde bereits in Kuaiying veröffentlicht.

Die U.S. Air Force präsentiert ihren ersten KI-Kampfjet mit großem Aufsehen! Der Minister führte die Testfahrt persönlich durch, ohne in den gesamten Prozess einzugreifen, und 100.000 Codezeilen wurden 21 Mal getestet. Die U.S. Air Force präsentiert ihren ersten KI-Kampfjet mit großem Aufsehen! Der Minister führte die Testfahrt persönlich durch, ohne in den gesamten Prozess einzugreifen, und 100.000 Codezeilen wurden 21 Mal getestet. May 07, 2024 pm 05:00 PM

Kürzlich wurde die Militärwelt von der Nachricht überwältigt: US-Militärkampfflugzeuge können jetzt mithilfe von KI vollautomatische Luftkämpfe absolvieren. Ja, erst kürzlich wurde der KI-Kampfjet des US-Militärs zum ersten Mal der Öffentlichkeit zugänglich gemacht und sein Geheimnis gelüftet. Der vollständige Name dieses Jägers lautet „Variable Stability Simulator Test Aircraft“ (VISTA). Er wurde vom Minister der US-Luftwaffe persönlich geflogen, um einen Eins-gegen-eins-Luftkampf zu simulieren. Am 2. Mai startete US-Luftwaffenminister Frank Kendall mit einer X-62AVISTA auf der Edwards Air Force Base. Beachten Sie, dass während des einstündigen Fluges alle Flugaktionen autonom von der KI durchgeführt wurden! Kendall sagte: „In den letzten Jahrzehnten haben wir über das unbegrenzte Potenzial des autonomen Luft-Luft-Kampfes nachgedacht, aber es schien immer unerreichbar.“ Nun jedoch,

nuScenes' neuestes SOTA |. SparseAD: Sparse-Abfrage hilft effizientes durchgängiges autonomes Fahren! nuScenes' neuestes SOTA |. SparseAD: Sparse-Abfrage hilft effizientes durchgängiges autonomes Fahren! Apr 17, 2024 pm 06:22 PM

Vorab geschrieben und Ausgangspunkt Das End-to-End-Paradigma verwendet ein einheitliches Framework, um Multitasking in autonomen Fahrsystemen zu erreichen. Trotz der Einfachheit und Klarheit dieses Paradigmas bleibt die Leistung von End-to-End-Methoden für das autonome Fahren bei Teilaufgaben immer noch weit hinter Methoden für einzelne Aufgaben zurück. Gleichzeitig erschweren die in früheren End-to-End-Methoden weit verbreiteten Funktionen der dichten Vogelperspektive (BEV) die Skalierung auf mehr Modalitäten oder Aufgaben. Hier wird ein Sparse-Search-zentriertes End-to-End-Paradigma für autonomes Fahren (SparseAD) vorgeschlagen, bei dem die Sparse-Suche das gesamte Fahrszenario, einschließlich Raum, Zeit und Aufgaben, ohne dichte BEV-Darstellung vollständig abbildet. Insbesondere ist eine einheitliche, spärliche Architektur für die Aufgabenerkennung einschließlich Erkennung, Verfolgung und Online-Zuordnung konzipiert. Zudem schwer

Sprechen wir über End-to-End- und autonome Fahrsysteme der nächsten Generation sowie über einige Missverständnisse über End-to-End-Autonomes Fahren? Sprechen wir über End-to-End- und autonome Fahrsysteme der nächsten Generation sowie über einige Missverständnisse über End-to-End-Autonomes Fahren? Apr 15, 2024 pm 04:13 PM

Im vergangenen Monat hatte ich aus bekannten Gründen einen sehr intensiven Austausch mit verschiedenen Lehrern und Mitschülern der Branche. Ein unvermeidliches Thema im Austausch ist natürlich End-to-End und der beliebte Tesla FSDV12. Ich möchte diese Gelegenheit nutzen, einige meiner aktuellen Gedanken und Meinungen als Referenz und Diskussion darzulegen. Wie definiert man ein durchgängiges autonomes Fahrsystem und welche Probleme sollten voraussichtlich durchgängig gelöst werden? Gemäß der traditionellsten Definition bezieht sich ein End-to-End-System auf ein System, das Rohinformationen von Sensoren eingibt und für die Aufgabe relevante Variablen direkt ausgibt. Bei der Bilderkennung kann CNN beispielsweise als End-to-End bezeichnet werden, verglichen mit der herkömmlichen Methode zum Extrahieren von Merkmalen + Klassifizieren. Bei autonomen Fahraufgaben werden Eingabedaten verschiedener Sensoren (Kamera/LiDAR) benötigt

See all articles