


Ein tieferes Verständnis des visuellen Transformators, Analyse des visuellen Transformators
Dieser Artikel wurde mit Genehmigung des öffentlichen Kontos von Autonomous Driving Heart nachgedruckt. Bitte wenden Sie sich beim Nachdruck an die Quelle Der Bereich Computer Vision (CV) hat große Auswirkungen gehabt. Sie übertreffen frühere CNN-Algorithmusmodelle (Convolutional Neural Network) bei vielen grundlegenden Computer-Vision-Aufgaben. Das Folgende ist die neueste Rangliste der verschiedenen grundlegenden Computer-Vision-Aufgaben, die ich gefunden habe. Mithilfe von LeaderBoard können wir die Dominanz des Transformer-Algorithmusmodells bei verschiedenen Computer-Vision-Aufgaben erkennen. Aus der Liste ist ersichtlich, dass unter den Top 5 jedes Modell die Transformer-Struktur verwendet, während die CNN-Struktur nur teilweise verwendet oder mit dem Transformer kombiniert wird.
LeaderBoard für Bildklassifizierungsaufgabe
Zielerkennungsaufgabe- Die nächste ist LeaderBoard für COCO-Testentwickler. Aus der Liste ist ersichtlich, dass mehr als die Hälfte der Top 5 auf DETR basiert algorithmische Struktur wird erweitert.
- Die letzte ist LeaderBoard auf ADE20K-Wert. Aus der Liste ist auch ersichtlich, dass die Transformer-Struktur unter den ersten auf der Liste immer noch den aktuellen Platz einnimmt Position. Die Hauptkraft.
Der Hauptzweck dieses Artikels besteht darin, verschiedene Interpretierbarkeitsmethoden von Vision Transformer zu untersuchen und auf den Forschungsmotivationen verschiedener Algorithmen, Strukturtypen usw. zu basieren Anwendungsszenarien werden in einem Übersichtsartikel klassifiziert
- Analyse von Vision Transformer
Denn wie bereits erwähnt, hat die Struktur von Vision Transformer bei verschiedenen grundlegenden Computer-Vision-Aufgaben sehr gute Ergebnisse erzielt. In der Computer-Vision-Community sind so viele Methoden entstanden, um die Interpretierbarkeit zu verbessern. In diesem Artikel konzentrieren wir uns hauptsächlich auf Klassifizierungsaufgaben und wählen die neuesten und aktuellsten aus fünf Aspekten aus:
Gemeinsame Attributionsmethoden, Aufmerksamkeitsbasierte Methoden
Beschneidungsbasierte Methoden
,Inhärent erklärbare Methoden
,Andere Aufgaben Klassische Arbeiten werden vorgestellt. Hier ist die Mindmap, die in der Arbeit erscheint. Sie können sie basierend auf Ihren Interessen detaillierter lesen Aus dem Modell beginnen wir mit der Erläuterung des Prozesses, wie die Eingabemerkmale nach und nach das endgültige Ausgabeergebnis erhalten. Diese Art von Methode wird hauptsächlich verwendet, um die Korrelation zwischen den Vorhersageergebnissen des Modells und den Eingabemerkmalen zu messen. Zu diesen Methoden gehören die Algorithmen „Grad-CAM“ und „Integrierte Gradienten“, die direkt auf Algorithmen angewendet werden, die auf visuellen Transformatoren basieren. Einige andere Methoden wie SHAP und Layer-Wise Relevance Propagation (LRP)
wurden verwendet, um ViT-basierte Architekturen zu untersuchen. Aufgrund des sehr hohen Rechenaufwands von Methoden wie SHAP wurde der aktuelleViT Shapely-Algorithmus jedoch so konzipiert, dass er sich an die ViT-bezogene Anwendungsforschung anpasst. Aufmerksamkeitsbasierte MethodenVision Transformer verfügt über leistungsstarke Funktionen zur Merkmalsextraktion durch seinen Aufmerksamkeitsmechanismus. Unter den aufmerksamkeitsbasierten Interpretierbarkeitsmethoden ist die Visualisierung der Ergebnisse der Aufmerksamkeitsgewichtung eine sehr effektive Methode. In diesem Artikel werden verschiedene Visualisierungstechniken vorgestellt
- Raw Attention: Wie der Name schon sagt, besteht diese Methode darin, die aus der mittleren Schicht des Netzwerkmodells erhaltene Aufmerksamkeitsgewichtskarte zu visualisieren, um die Wirkung des Modells zu analysieren.
- Aufmerksamkeits-Rollout: Diese Technologie verfolgt die Übertragung von Informationen von Eingabe-Tokens zu Zwischeneinbettungen, indem sie die Aufmerksamkeitsgewichte in verschiedenen Schichten des Netzwerks erhöht.
- Aufmerksamkeitsfluss: Diese Methode behandelt die Aufmerksamkeitskarte als Flussnetzwerk und verwendet den Maximalflussalgorithmus, um den maximalen Flusswert von der Zwischeneinbettung bis zum Eingabetoken zu berechnen.
- partialLRP: Diese Methode wird zur Visualisierung des Multi-Head-Aufmerksamkeitsmechanismus in Vision Transformer vorgeschlagen, wobei auch die Bedeutung jedes Aufmerksamkeitskopfes berücksichtigt wird.
- Grad-SAM: Diese Methode wird verwendet, um die Einschränkungen zu mildern, die dadurch entstehen, dass man sich zur Erklärung von Modellvorhersagen ausschließlich auf die ursprüngliche Aufmerksamkeitsmatrix verlässt, und veranlasst Forscher, Gradienten in den ursprünglichen Aufmerksamkeitsgewichten zu verwenden.
- Jenseits der Intuition: Diese Methode ist auch eine Methode zur Erklärung von Aufmerksamkeit, einschließlich zwei Stufen der Aufmerksamkeitswahrnehmung und des Argumentationsfeedbacks.
Abschließend finden Sie hier ein Aufmerksamkeitsvisualisierungsdiagramm verschiedener Interpretierbarkeitsmethoden. Sie können den Unterschied zwischen verschiedenen Visualisierungsmethoden selbst spüren.
Vergleich von Aufmerksamkeitskarten verschiedener Visualisierungsmethoden
Pruning-basierte Methoden
Pruning ist eine sehr effektive Methode, die häufig zur Optimierung der Effizienz und Komplexität der Transformatorstruktur eingesetzt wird. Die Bereinigungsmethode reduziert die Anzahl der Parameter und die Rechenkomplexität des Modells, indem redundante oder nutzlose Informationen gelöscht werden. Obwohl sich Bereinigungsalgorithmen auf die Verbesserung der Recheneffizienz des Modells konzentrieren, kann diese Art von Algorithmus dennoch eine Interpretierbarkeit des Modells erreichen.
Die auf Vision-Transformer basierenden Bereinigungsmethoden in diesem Artikel lassen sich grob in drei Kategorien einteilen: explizit erklärbar (explizit erklärbar), implizit erklärbar (implizit erklärbar), möglicherweise erklärbar (möglicherweise erklärbar) erklären).
-
Explizit erklärbar
Unter den auf Beschneidung basierenden Methoden gibt es mehrere Arten von Methoden, die einfachere und besser erklärbare Modelle liefern können.
- IA-RED^2: Ziel dieser Methode ist es, ein optimales Gleichgewicht zwischen Recheneffizienz und Interpretierbarkeit des Algorithmusmodells zu erreichen. Dabei bleibt die Flexibilität des ursprünglichen ViT-Algorithmusmodells erhalten.
- X-Pruner: Bei dieser Methode handelt es sich um eine Methode zum Bereinigen von Salienzeinheiten durch Erstellen einer interpretierbaren Wahrnehmungsmaske, die den Beitrag jeder vorhersagbaren Einheit bei der Vorhersage einer bestimmten Klasse misst.
- Vision DiffMask: Diese Beschneidungsmethode umfasst das Hinzufügen eines Gating-Mechanismus zu jeder ViT-Schicht. Durch den Gating-Mechanismus kann die Ausgabe des Modells beibehalten und gleichzeitig die Eingabe abgeschirmt werden. Darüber hinaus kann das algorithmische Modell eindeutig eine Teilmenge der verbleibenden Bilder auslösen, was ein besseres Verständnis der Vorhersagen des Modells ermöglicht.
-
Implizit erklärbar
Unter den Pruning-basierten Methoden gibt es auch einige klassische Methoden, die in die Kategorie der impliziten Erklärbarkeitsmodelle eingeteilt werden können. - Dynamic ViT: Diese Methode verwendet ein leichtes Vorhersagemodul, um die Bedeutung jedes Tokens basierend auf den aktuellen Eigenschaften abzuschätzen. Dieses leichtgewichtige Modul wird dann zu verschiedenen Ebenen von ViT hinzugefügt, um redundante Token hierarchisch zu bereinigen. Am wichtigsten ist, dass diese Methode die Interpretierbarkeit verbessert, indem nach und nach wichtige Bildteile lokalisiert werden, die am meisten zur Klassifizierung beitragen.
- Efficient Vision Transformer (EViT): Die Kernidee dieser Methode besteht darin, EViT durch die Neuorganisation von Token zu beschleunigen. Durch die Berechnung der Aufmerksamkeitswerte behält EViT die relevantesten Tokens bei, während weniger relevante Tokens zu zusätzlichen Tokens zusammengeführt werden. Um die Interpretierbarkeit von EViT zu bewerten, visualisierte der Autor des Papiers gleichzeitig den Token-Erkennungsprozess auf mehreren Eingabebildern.
-
Möglicherweise erklärbar
Obwohl diese Art von Methode ursprünglich nicht dazu gedacht war, die Interpretierbarkeit von ViT zu verbessern, bietet diese Art von Methode großes Potenzial für weitere Forschung zur Interpretierbarkeit des Modells.
- Patch-Verschlankung: Beschleunigen Sie ViT, indem Sie sich durch einen Top-Down-Ansatz auf redundante Patches in Bildern konzentrieren. Der Algorithmus behält selektiv die Fähigkeit wichtiger Patches bei, wichtige visuelle Merkmale hervorzuheben und dadurch die Interpretierbarkeit zu verbessern.
- Hierarchical Visual Transformer (HVT): Diese Methode wird eingeführt, um die Skalierbarkeit und Leistung von ViT zu verbessern. Mit zunehmender Modelltiefe nimmt die Sequenzlänge allmählich ab. Darüber hinaus wird die Recheneffizienz durch die Aufteilung von ViT-Blöcken in mehrere Phasen und die Anwendung von Pooling-Operationen in jeder Phase erheblich verbessert. Angesichts der fortschreitenden Konzentration auf die wichtigsten Komponenten des Modells besteht die Möglichkeit, seine möglichen Auswirkungen auf die Verbesserung der Interpretierbarkeit und Interpretierbarkeit zu untersuchen.
Inhärent erklärbare Methoden
Unter den verschiedenen interpretierbaren Methoden gibt es eine Klasse von Methoden, die hauptsächlich algorithmische Modelle entwickeln, die sie intrinsisch erklären können. Diese Modelle haben jedoch oft Schwierigkeiten, das gleiche Maß an Genauigkeit zu erreichen wie komplexere Black-Box-Methoden Modelle. Daher muss ein sorgfältiges Gleichgewicht zwischen Interpretierbarkeit und Leistung berücksichtigt werden. Als nächstes werden einige klassische Werke kurz vorgestellt.
- ViT-CX: Diese Methode ist eine maskenbasierte Interpretationsmethode, die für das ViT-Modell angepasst ist. Dieser Ansatz basiert auf der Patch-Einbettung und deren Auswirkungen auf die Modellausgabe, anstatt sich darauf zu konzentrieren. Diese Methode besteht aus zwei Phasen: Maskengenerierung und Maskenaggregation, wodurch eine aussagekräftigere Ausprägungskarte bereitgestellt wird.
- ViT-NeT: Bei dieser Methode handelt es sich um einen neuen neuronalen Baumdecoder, der den Entscheidungsprozess durch Baumstrukturen und Prototypen beschreibt. Gleichzeitig ermöglicht der Algorithmus auch eine visuelle Interpretation der Ergebnisse.
- R-Cut: Diese Methode verbessert die Interpretierbarkeit von ViT durch Relationship Weighted Out und Cut. Diese Methode umfasst zwei Module, nämlich die Module „Relationship Weighted Out“ und „Cut“. Ersteres konzentriert sich auf das Extrahieren spezifischer Informationsklassen aus der mittleren Schicht und hebt relevante Merkmale hervor. Letzteres führt eine feinkörnige Merkmalszerlegung durch. Durch die Integration beider Module können dichte klassenspezifische Interpretierbarkeitskarten generiert werden.
Andere Aufgaben
Die ViT-basierte Architektur muss für andere Computer-Vision-Aufgaben in der Erkundung noch erklärt werden. Einige Interpretierbarkeitsmethoden wurden speziell für andere Aufgaben vorgeschlagen, und die neuesten Arbeiten in verwandten Bereichen werden im Folgenden vorgestellt
- eX-ViT: Dieser Algorithmus ist ein neuer interpretierbarer visueller Transformator, der auf einer schwach überwachten semantischen Segmentierung basiert. Um die Interpretierbarkeit zu verbessern, wird außerdem ein attributorientiertes Verlustmodul eingeführt, das drei Verluste enthält: attributorientierter Verlust auf globaler Ebene, Attributunterscheidbarkeitsverlust auf lokaler Ebene und Attributdiversitätsverlust. Ersteres verwendet Aufmerksamkeitskarten, um interpretierbare Merkmale zu erstellen, während die beiden letzteren das Lernen von Attributen verbessern.
- DINO: Diese Methode ist eine einfache selbstüberwachte Methode und eine Selbstdestillationsmethode ohne Etiketten. Die endgültig erlernte Aufmerksamkeitskarte kann die semantischen Bereiche des Bildes effektiv beibehalten und so interpretierbare Zwecke erreichen.
- Generisches Aufmerksamkeitsmodell: Diese Methode ist ein Algorithmusmodell zur Vorhersage basierend auf der Transformer-Architektur. Die Methode wird auf die drei am häufigsten verwendeten Architekturen angewendet, nämlich reine Selbstaufmerksamkeit, Selbstaufmerksamkeit kombiniert mit gemeinsamer Aufmerksamkeit und Encoder-Decoder-Aufmerksamkeit. Um die Interpretierbarkeit des Modells zu testen, verwendeten die Autoren eine visuelle Frage-Antwort-Aufgabe, sie ist jedoch auch auf andere CV-Aufgaben wie Objekterkennung und Bildsegmentierung anwendbar.
- ATMAN: Dies ist eine modalitätsunabhängige Störungsmethode, die einen Aufmerksamkeitsmechanismus verwendet, um eine Korrelationskarte der Eingabe relativ zur Ausgabevorhersage zu erstellen. Dieser Ansatz versucht, die Deformationsvorhersage durch gedächtniseffiziente Aufmerksamkeitsoperationen zu verstehen.
- Concept-Transformer: Dieser Algorithmus generiert Erklärungen zu Modellausgaben, indem er Aufmerksamkeitswerte für benutzerdefinierte Konzepte auf hoher Ebene hervorhebt und so Vertrauenswürdigkeit und Zuverlässigkeit gewährleistet.
Zukunftsausblick
Derzeit haben auf der Transformer-Architektur basierende Algorithmusmodelle bei verschiedenen Computer-Vision-Aufgaben hervorragende Ergebnisse erzielt. Derzeit mangelt es jedoch an offensichtlicher Forschung darüber, wie mithilfe von Interpretierbarkeitsmethoden das Debuggen und Verbessern von Modellen gefördert und die Modellgerechtigkeit und -zuverlässigkeit verbessert werden kann, insbesondere in ViT-Anwendungen
Dieser Artikel zielt darauf ab, eine Bildklassifizierung basierend auf den Interpretierbarkeitsalgorithmusmodellen von durchzuführen Vision Transformer sind klassifiziert und organisiert, um den Lesern ein besseres Verständnis der Architektur solcher Modelle zu ermöglichen.
Was neu geschrieben werden muss, ist: Originallink: https://mp.weixin.qq. com/s/URkobeRNB8dEYzrECaC7tQ
Das obige ist der detaillierte Inhalt vonEin tieferes Verständnis des visuellen Transformators, Analyse des visuellen Transformators. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Heute diskutieren wir darüber, wie Deep-Learning-Technologie die Leistung von visionbasiertem SLAM (Simultaneous Localization and Mapping) in komplexen Umgebungen verbessern kann. Durch die Kombination von Methoden zur Tiefenmerkmalsextraktion und Tiefenanpassung stellen wir hier ein vielseitiges hybrides visuelles SLAM-System vor, das die Anpassung in anspruchsvollen Szenarien wie schlechten Lichtverhältnissen, dynamischer Beleuchtung, schwach strukturierten Bereichen und starkem Jitter verbessern soll. Unser System unterstützt mehrere Modi, einschließlich erweiterter Monokular-, Stereo-, Monokular-Trägheits- und Stereo-Trägheitskonfigurationen. Darüber hinaus wird analysiert, wie visuelles SLAM mit Deep-Learning-Methoden kombiniert werden kann, um andere Forschungen zu inspirieren. Durch umfangreiche Experimente mit öffentlichen Datensätzen und selbst abgetasteten Daten demonstrieren wir die Überlegenheit von SL-SLAM in Bezug auf Positionierungsgenauigkeit und Tracking-Robustheit.

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren
