Kollaborative Sensortechnologie ist von großer Bedeutung für die Lösung des Wahrnehmungsproblems autonomer Fahrzeuge. Die bestehende Forschung ignoriert jedoch häufig die mögliche Heterogenität zwischen Agenten, also die Vielfalt von Sensoren und Wahrnehmungsmodellen. In praktischen Anwendungen kann es erhebliche Unterschiede in den Modalitäten und Modellen zwischen Agenten geben, was zur Entstehung von Domänenunterschieden führt und die kollaborative Wahrnehmung erschwert. Daher muss die zukünftige Forschung darüber nachdenken, wie die Heterogenität zwischen Agenten effektiv gehandhabt werden kann, um eine effektivere kollaborative Wahrnehmung zu erreichen. Dies erfordert die Entwicklung neuer Methoden und Algorithmen, um die Unterschiede zwischen verschiedenen Agenten zu berücksichtigen und sicherzustellen, dass sie zusammenarbeiten können, um ein effizienteres autonomes Fahrsystem zu erreichen.
Um diese praktische Herausforderung zu lösen, definiert der neueste Forschungsartikel von ICLR 2024 „An Extensible Framework for Open Heterogeneous Collaborative Perception“ das Problem der Open Heterogeneous Collaborative Perception: Wie können neue heterogene Agenten integriert werden, die ständig neu entstehen? Sensorsystem bei gleichzeitig hoher Sensorleistung und niedrigen Verbindungskosten? Forscher der Shanghai Jiao Tong University, der University of Southern California und des Shanghai Artificial Intelligence Laboratory haben in diesem Artikel HEAL (HEterogeneousALliance) vorgeschlagen: ein skalierbares Framework für die Zusammenarbeit heterogener Agenten, das effektiv ist und die beiden Hauptprobleme löst offener heterogener kollaborativer Wahrnehmungsprobleme.
Sie haben ein Code-Framework erstellt, das mehrere kollaborative Sensordatensätze und mehrere kollaborative Sensoralgorithmen enthält und Multimodalität unterstützt, das jetzt vollständig Open Source ist. Der Autor ist der Ansicht, dass dies derzeit das umfassendste Code-Framework für die kollaborative Sensorik ist und voraussichtlich mehr Menschen den Einstieg in das multimodale und heterogene Forschungsfeld der kollaborativen Sensorik erleichtern wird.
In den letzten Jahren , Die autonome Fahrtechnologie hat in Wissenschaft und Industrie große Aufmerksamkeit erregt. Die tatsächlichen Straßenbedingungen sind jedoch komplex und veränderlich, und die Sensoren eines einzelnen Fahrzeugs können von anderen Fahrzeugen blockiert werden, was die Wahrnehmungsfähigkeiten des autonomen Fahrsystems vor Herausforderungen stellt. Um diese Probleme zu lösen, wird die kollaborative Erfassung zwischen mehreren Agenten zu einer Lösung. Mit der Weiterentwicklung der Kommunikationstechnologie können Agenten sensorische Informationen austauschen und ihre eigenen Sensordaten mit Informationen anderer Agenten kombinieren, um ihre Wahrnehmung der Umgebung zu verbessern. Durch die Zusammenarbeit ist jeder Agent in der Lage, Informationen zu erhalten, die über sein eigenes Sichtfeld hinausgehen, was zur Verbesserung der Wahrnehmungs- und Entscheidungsfähigkeiten beiträgt.
Abbildung 1. Das „Geistersonden“-Problem, das durch Sichtlinienverdeckung und eingeschränkte Fahrradwahrnehmung verursacht wird
Im aktuellen Forschungsbereich basieren die meisten Arbeiten auf einer möglicherweise zu stark vereinfachten Annahme: Alle Agenten müssen die gleiche Struktur haben; Das heißt, ihre Wahrnehmungssysteme verwenden alle dieselben Sensoren und verwenden dasselbe Erkennungsmodell. In der realen Welt können die Muster und Modelle verschiedener Agenten jedoch unterschiedlich sein und es können weiterhin neue Muster und Modelle entstehen. Aufgrund der rasanten Entwicklung von Sensortechnologie und Algorithmen ist es unrealistisch, zunächst alle Arten kollaborativer Agenten (einschließlich Modi und Modelle) zu identifizieren. Wenn ein heterogener Agent, der noch nie im Trainingssatz aufgetreten ist, der Zusammenarbeit beitreten möchte, wird er unweigerlich auf Domänenunterschiede mit vorhandenen Agenten stoßen. Dieser Unterschied schränkt die Fähigkeit ein, eine Merkmalsfusion mit vorhandenen Agenten durchzuführen, wodurch die Skalierbarkeit der kollaborativen Erfassung erheblich eingeschränkt wird.
Daher stellt sich das Problem der offenen heterogenen kooperativen Erfassung: Wie können die neuen Agententypen zum bestehenden kooperativen Erfassungssystem hinzugefügt und gleichzeitig eine hohe Erfassungsleistung und niedrige Integrationskosten sichergestellt werden?
Abbildung 2. (a) Homogene kollaborative Wahrnehmung (b) Heterogene kollaborative Wahrnehmung (c) Offene heterogene kollaborative Wahrnehmung unter Berücksichtigung der Hinzufügung neuer heterogener Agenten (d) HEAL erzielt bei geringstem Schulungsaufwand die beste kollaborative Wahrnehmungsleistung
Um dieses Problem zu lösen, ist die Postfusion eine praktikable Lösung. Durch die Zusammenführung der Wahrnehmungsausgabe jedes Agenten (z. B. eines 3D-Begrenzungsrahmens) umgeht die Postfusion die Heterogenität zwischen neuen und vorhandenen Agenten, und das Training muss nur für eine einzelne Agentenklasse erfolgen. Allerdings ist die Leistung der Post-Fusion nicht ideal und erweist sich als besonders anfällig für Störfaktoren wie Positionierungsrauschen und Kommunikationsverzögerungen. Ein weiterer möglicher Ansatz ist ein vollständig kollektives Training, das alle Agententypen in einer Zusammenarbeit für ein gemeinsames Training zusammenfasst, um Domänenunterschiede zu überwinden. Dieser Ansatz erfordert jedoch jedes Mal eine Neuschulung aller Modelle, wenn ein neuer Agententyp eingeführt wird. Mit dem kontinuierlichen Aufkommen neuer heterogener Agenten steigen die Schulungskosten stark an. HEAL schlägt ein neues offenes heterogenes Kollaborationsframework vor, das gleichzeitig die hohe Leistung einer vollständig kollektiven Schulung und die niedrigen Schulungskosten einer Postfusion bietet.
Offenes heterogenes Kollaborationswahrnehmungsproblem Stellen Sie sich das folgende Szenario vor: Hinzufügen heterogener Agentenkategorien mit bisher nicht verfügbaren Modalitäten oder Modellen zum bestehenden Kollaborationssystem. Ohne Beschränkung der Allgemeinheit gehen wir davon aus, dass die Szene zunächst aus homogenen Agenten besteht, die mit demselben Sensortyp ausgestattet sind, dasselbe Erkennungsmodell einsetzen und alle über die Fähigkeit verfügen, miteinander zu kommunizieren. Diese isomorphen Agenten bilden ein bestehendes kollaboratives System. Anschließend schließen sich heterogene Agenten mit Modalitäten oder Wahrnehmungsmodellen, die noch nie in der Szene aufgetaucht sind, dem kollaborativen System an. Diese dynamische Natur ist ein charakteristisches Merkmal des Einsatzes kollaborativer Sensorik in der realen Welt: Agentenklassen sind zu Beginn nicht vollständig festgelegt und die Anzahl der Typen kann mit der Zeit zunehmen. Es unterscheidet sich auch erheblich von früheren heterogenen kollaborativen Erkennungsproblemen, bei denen die heterogenen Kategorien im Voraus festgelegt und festgelegt wurden.
Das in diesem Artikel vorgeschlagene offene heterogene Kooperationsbewusstseins-Framework HEAL (HEterogeneous ALLiance) entwirft eine zweistufige Methode, um der Zusammenarbeit neue heterogene Agenten hinzuzufügen, um eine wachsende heterogene Basisklasse zu erreichen Schulung, die es dem anfänglichen Agenten ermöglicht, ein Feature-Fusion-Kollaborationsnetzwerk zu trainieren und einen einheitlichen Feature-Raum zu schaffen; ii) Training neuer Agenten, das die Funktionen des neuen Agenten an den zuvor eingerichteten einheitlichen Feature-Bereich anpasst, wodurch neue Agenten mit vorhandenen Agenten zusammenarbeiten können; auf der Funktionsebene.
Für jeden neuen Agententyp, der der Zusammenarbeit beitritt, ist nur die zweite Schulungsphase erforderlich. Es ist erwähnenswert, dass die zweite Schulungsphase unabhängig vom Eigentümer des Agenten durchgeführt werden kann und keine gemeinsame Schulung mit bestehenden Agenten erfordert. Dies ermöglicht das Hinzufügen neuer Agenten mit geringeren Schulungskosten und schützt gleichzeitig die Modelldetails der neuen Agenten vor der Offenlegung.
Abbildung 3. Das Gesamtgerüst von HEAL
Wir verwenden die isomorphen Agenten, die zu Beginn der Szene vorhanden sind, als kollaborative Basisklassen und trainieren eine Feature-Fusion- basiertes kollaboratives Sensornetzwerk. Wir schlagen ein neuartiges Pyramidenfusionsnetzwerk vor, um die Merkmale mehrerer Agenten zu extrahieren und zu verschmelzen. Insbesondere lassen wir die vom Encoder jedes isomorphen Agenten codierten BEV-Merkmale mehrere Schichten von ResNeXt-Netzwerken unterschiedlicher Größenordnung durchlaufen, um sie grobkörnig zu extrahieren und feinkörnige Funktionsinformationen. Auf Feature-Karten unterschiedlicher Maßstäbe wenden wir ein Vordergrund-Prädiktornetzwerk an, um die Wahrscheinlichkeit abzuschätzen, dass an jeder Feature-Position des BEV ein Vordergrund vorhanden ist, beispielsweise ein Fahrzeug. Über alle Mitarbeiter hinweg wird die Wahrscheinlichkeitskarte des Vordergrunds als Gewichtsverteilung aus einer pixelweise gewichteten Fusion der Feature-Maps normalisiert. Nachdem wir die fusionierten Feature-Maps in verschiedenen Maßstäben erhalten haben, verwenden wir eine Reihe von Upsampling-Netzwerken, um sie in die gleiche Feature-Map-Größe zu konvertieren und die endgültige fusionierte Feature-Map zu erhalten.
Abbildung 4. Pyramid Fusion Network
Die fusionierte Feature-Map durchläuft einen Erkennungskopf und wird in das endgültige Ergebnis der kollaborativen Erkennung umgewandelt. Sowohl die kollaborativen Erkennungsergebnisse als auch die Wahrscheinlichkeitskarte des Vordergrunds werden durch Ground-Truth überwacht. Nach dem Training speichern die Parameter des Kollaborationsnetzwerks (Pyramidenfusionsnetzwerk) die relevanten Merkmalsinformationen der Kollaborationsbasisklasse und erstellen einen gemeinsamen Merkmalsraum für die anschließende Ausrichtung neuer heterogener Agenten.
Wir erwägen die Hinzufügung eines neuen heterogenen Agententyps. Wir schlagen eine neuartige Methode zur Rückwärtsausrichtung vor. Die Kernidee besteht darin, das Pyramidenfusionsnetzwerk und den Erkennungskopf der vorherigen Stufe als Detektor-Backend des neuen Agenten zu verwenden und nur die Parameter zu aktualisieren, die sich auf den Front-End-Encoder beziehen.
Es ist erwähnenswert, dass wir Einzelagentenschulungen für einzelne Agenten neuer heterogener Kategorien durchführen und keine Zusammenarbeit zwischen Agenten beinhalten. Daher ist die Eingabe des Pyramidenfusionsnetzwerks eine einzelne Feature-Map anstelle von Multi-Agent-Feature-Maps in einer Stufe. Während das vorab trainierte Pyramidenfusionsmodul und der Erkennungskopf als Backend etabliert und fixiert werden, entwickelt sich der Trainingsprozess weiter, um den Frontend-Encoder an die Parameter des Backends anzupassen, sodass die vom neuen Agenten codierten Features mit dem einheitlichen Feature-Raum konsistent sind. Da die Funktionen auf die Funktionen bestehender Agenten abgestimmt sind, können sie eine leistungsstarke Zusammenarbeit auf Funktionsebene erreichen.
Die Rückwärtsausrichtung bietet auch einen einzigartigen Vorteil: Das Training wird nur für einen neuen Einzelagenten durchgeführt. Dadurch werden die Schulungskosten und die Datenerfassungskosten der räumlich-zeitlichen Synchronisierung jedes Mal, wenn ein neuer Agent hinzugefügt wird, erheblich reduziert. Darüber hinaus wird verhindert, dass die Modelldetails des neuen Agenten anderen zugänglich gemacht werden, und der Besitzer des neuen Agenten kann das Modell mithilfe seiner eigenen Sensordaten trainieren. Dies wird viele Bedenken ausräumen, die Automobilunternehmen beim Einsatz kollaborativer Fahrzeug-zu-Fahrzeug-Sensortechnologie (V2V) haben könnten.
Basierend auf dem OPV2V-Datensatz schlägt dieses Papier einen heterogeneren OPV2V-H-Datensatz vor, der die 16-zeiligen und 32-zeiligen Lidar-Daten jedes Fahrzeugs sowie 4-Tiefen-Kameradaten ergänzt. Experimentelle Ergebnisse des OPV2V-H-Datensatzes und des realen Datensatzes DAIR-V2X zeigen, dass HEAL eine Reihe von Trainingskosten (Trainingsparameter, FLOPs, Trainingszeit usw.) für die Zusammenarbeit heterogener Agenten erheblich reduziert und diese auch aufrechterhält Extrem hohe kollaborative Erkennungsleistung.
Abbildung 5. HEAL bietet sowohl eine hohe Leistung als auch niedrige Schulungskosten.
Beim Vorhandensein von Positionierungsrauschen und Merkmalskomprimierung behält HEAL immer noch die beste Erkennungsleistung bei, was zeigt, dass HEAL bei realitätsnäheren Einstellungen derzeit am besten ist effektiver kollaborativer Erfassungsalgorithmus.
Das obige ist der detaillierte Inhalt von„Rettung' offener heterogener Szenarien |. HEAL: das neueste skalierbare kollaborative Sensor-Framework. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!