Die derzeit führenden Objektdetektoren sind zweistufige oder einstufige Netzwerke, die auf dem umfunktionierten Backbone-Klassifizierungsnetzwerk von Deep CNN basieren. YOLOv3 ist ein solcher bekannter hochmoderner einstufiger Detektor, der ein Eingabebild empfängt und es in eine gleich große Gittermatrix aufteilt. Für die Erkennung spezifischer Ziele sind Gitterzellen mit Zielzentren zuständig.
Was wir heute geteilt haben, ist, eine neue mathematische Methode vorzuschlagen, die jedem Ziel mehrere Gitter zuordnet, um eine genaue Vorhersage des eng anliegenden Begrenzungsrahmens zu erreichen. Die Forscher schlugen außerdem eine „effektive Offline-Datenverbesserung durch Kopieren und Einfügen zur Zielerkennung“ vor. Die neu vorgeschlagene Methode übertrifft einige aktuelle Objektdetektoren auf dem neuesten Stand der Technik deutlich und verspricht eine bessere Leistung. 2. Hintergrund
Objekterkennungsnetzwerke dienen dazu, Objekte auf Bildern zu lokalisieren und sie mithilfe präzise passender Begrenzungsrahmen genau zu kennzeichnen. In letzter Zeit gibt es zwei verschiedene Möglichkeiten, dies zu erreichen. Die erste Methode ist hinsichtlich der Leistung die zweistufige Objekterkennung. Der beste Vertreter ist das regionale Faltungs-Neuronale Netzwerk (RCNN) und seine Ableitungen [Schnelleres R-CNN: Auf dem Weg zur Echtzeit-Objekterkennung mit Regionsvorschlagsnetzwerken ], [Schnelles R-CNN]. Im Gegensatz dazu ist die zweite Gruppe von Objekterkennungsimplementierungen für ihre hervorragende Erkennungsgeschwindigkeit und ihr geringes Gewicht bekannt und wird als einstufige Netzwerke bezeichnet. Ein repräsentatives Beispiel ist [Sie schauen nur einmal: Einheitliche Echtzeit-Objekterkennung], [SSD: Single-Shot-Multibox-Detektor], [Fokusverlust für die Erkennung dichter Objekte]. Das zweistufige Netzwerk basiert auf einem Vorschlagsnetzwerk für latente Regionen, das Kandidatenregionen von Bildern generiert, die möglicherweise interessierende Objekte enthalten. Die von diesem Netzwerk generierten Kandidatenregionen können den interessierenden Bereich des Objekts enthalten. Bei der einstufigen Objekterkennung erfolgt die Erkennung gleichzeitig mit der Klassifizierung und Lokalisierung in einem vollständigen Vorwärtsdurchlauf. Daher sind einstufige Netzwerke typischerweise leichter, schneller und einfacher zu implementieren.Die heutige Forschung hält immer noch an der YOLO-Methode, insbesondere YOLOv3, und schlägt einen einfachen Hack vor, der mehrere Netzwerkeinheitselemente gleichzeitig verwenden kann, um Zielkoordinaten, Kategorien und Zielvertrauen vorherzusagen. Der Grundgedanke hinter Multi-Netzwerk-Einheitselementen pro Objekt besteht darin, die Wahrscheinlichkeit der Vorhersage eng anliegender Begrenzungsrahmen zu erhöhen, indem mehrere Einheitselemente gezwungen werden, an demselben Objekt zu arbeiten.
Zu den Vorteilen der Multi-Grid-Zuweisung gehören:
Der Objektdetektor bietet eine Karte des Objekts, das er erkennt, in mehreren Ansichten, anstatt sich nur auf eine Gitterzelle zu verlassen, um die Klasse und das Objekt des Objekts vorherzusagen Koordinaten.(b+) Weniger zufällige und unsichere Begrenzungsrahmenvorhersagen, was eine hohe Präzision und Wiedererkennung bedeutet, da benachbarte Netzwerkeinheiten darauf trainiert sind, dieselbe Objektkategorie und dieselben Koordinaten vorherzusagen Objekte von Interesse und Gitterzellen ohne Objekte von Interesse.
Da die Multi-Grid-Zuweisung außerdem eine mathematische Nutzung vorhandener Parameter ist und keine zusätzlichen Schlüsselpunkt-Pooling-Ebenen und Nachbearbeitung erfordert, um Schlüsselpunkte mit ihren entsprechenden Zielen wie CenterNet und CornerNet neu zu kombinieren, kann man sagen, dass dies der Fall ist ist ein natürlicherer Weg, um das zu erreichen, was ankerfreie oder schlüsselpunktbasierte Objektdetektoren erreichen wollen. Zusätzlich zu den redundanten Anmerkungen mit mehreren Rastern führten die Forscher auch eine neue, auf Offline-Kopieren und Einfügen basierende Datenverbesserungstechnologie für eine genaue Objekterkennung ein.
3. MULTI-GITTER-AUFGABE
Das obige Bild enthält drei Ziele, nämlich Hunde, Fahrräder und Autos. Der Kürze halber erklären wir unsere Multi-Grid-Zuweisung an einem Objekt. Das Bild oben zeigt die Begrenzungsrahmen von drei Objekten, mit weiteren Details zum Begrenzungsrahmen des Hundes. Das Bild unten zeigt einen verkleinerten Bereich des Bildes oben, wobei der Schwerpunkt auf der Mitte des Begrenzungsrahmens des Hundes liegt. Die obere linke Koordinate der Gitterzelle, die die Mitte des Begrenzungsrahmens des Hundes enthält, ist mit der Zahl 0 beschriftet, während die anderen acht Gitterzellen, die das Gitter umgeben, das die Mitte enthält, Beschriftungen von 1 bis 8 haben.
Bisher habe ich die grundlegenden Fakten erklärt, wie ein Netz, das die Mitte des Begrenzungsrahmens eines Objekts enthält, ein Objekt mit Anmerkungen versehen. Diese Abhängigkeit von nur einer Gitterzelle pro Objekt, um die schwierige Aufgabe der Vorhersage von Kategorien und präzisen, eng anliegenden Begrenzungsrahmen zu erfüllen, wirft viele Probleme auf, wie zum Beispiel:
(a) Riesige Lücke zwischen positiven und negativen Gittern, Ungleichgewicht, d. h. mit und ohne Gitterkoordinaten des Objektzentrums
(b) Langsame Konvergenz des Begrenzungsrahmens zu GT
(c) Fehlen von Mehrwinkelansichten (Winkelansichten) des vorherzusagenden Objekts.
Eine natürliche Frage, die hier gestellt werden sollte, lautet also: „Offensichtlich enthalten die meisten Objekte Bereiche mit mehr als einer Gitterzelle. Gibt es also eine einfache mathematische Möglichkeit, mehr dieser Gitterzellen zuzuweisen, um zu versuchen, die Kategorien und Koordinaten des Objekts vorherzusagen?“ zusammen mit der mittleren Gitterzelle?“ Einige Vorteile davon sind (a) ein geringeres Ungleichgewicht, (b) ein schnelleres Training zur Konvergenz zu Begrenzungsrahmen, da jetzt mehrere Gitterzellen gleichzeitig auf dasselbe Objekt zielen, (c) eine verbesserte Vorhersage eng anliegender Begrenzungsrahmen. Möglichkeit (d) bietet Raster- basierte Detektoren wie YOLOv3 mit Mehrfachansichten anstelle von Einzelpunktansichten von Objekten. Die neu vorgeschlagene Multigrid-Allokation versucht, die oben genannten Fragen zu beantworten. ?? äh und schneller. Ein Faltungsblock verfügt über eine Conv2D+Batch-Normalisierung+LeakyRelu. Die entfernten Blöcke stammen nicht aus dem Klassifizierungs-Backbone, also Darknet53. Entfernen Sie sie stattdessen aus drei Multiskalen-Erkennungs-Ausgangsnetzwerken oder -Köpfen, zwei aus jedem Ausgangsnetzwerk. Obwohl tiefe Netzwerke im Allgemeinen eine gute Leistung erbringen, neigen zu tiefe Netzwerke auch dazu, schnell überzupassen oder das Netzwerk erheblich zu verlangsamen.
B. Die Verlustfunktion
C. Datenerweiterung
Die manuelle Trainingsbildsynthese funktioniert wie folgt : Erstens: Verwenden Sie ein einfaches Bildsuchskript, um Tausende von objektfreien Hintergrundbildern von Google Bilder mit Schlüsselwörtern wie Wahrzeichen, Regen, Wald usw. herunterzuladen, d. h. Bilder ohne das Objekt, das uns interessiert. Anschließend wählen wir iterativ p Objekte und ihre Begrenzungsrahmen aus zufälligen q Bildern des gesamten Trainingsdatensatzes aus. Anschließend generieren wir alle möglichen Kombinationen von p ausgewählten Begrenzungsrahmen unter Verwendung ihrer Indizes als IDs. Aus der kombinierten Menge wählen wir eine Teilmenge von Begrenzungsrahmen aus, die die folgenden zwei Bedingungen erfüllen:
Wenn sie in zufälliger Reihenfolge nebeneinander angeordnet sind, müssen sie in einen bestimmten Zielhintergrundbildbereich passen
und sollten Nutzen Sie den gesamten Hintergrundbildraum oder zumindest den größten Teil davon effizient, ohne dass sich die Objekte überschneiden. Leistungsvergleich im Coco-Datensatz. Wie aus der Abbildung ersichtlich ist, zeigt die erste Zeile die sechs Eingabebilder, während die zweite Zeile das Netzwerk vor der nicht-maximalen Unterdrückung (NMS) zeigt. Die letzte Zeile zeigt die endgültige Bounding-Box-Vorhersage von MultiGridDet für das Eingabebild nach NMS.
Das obige ist der detaillierte Inhalt vonRedundante Begrenzungsrahmenanmerkung mit mehreren Gittern für eine genaue Objekterkennung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!