Die Forschungsautoren schlagen Matrix Net (xNet) vor, eine neue tiefe Architektur zur Objekterkennung. xNets bilden Objekte mit unterschiedlichen Größenabmessungen und Seitenverhältnissen in Netzwerkschichten ab, wobei die Objekte innerhalb der Schicht nahezu einheitlich in Größe und Seitenverhältnis sind. Daher bieten xNets eine Architektur, die Größe und Seitenverhältnis berücksichtigt. Forscher nutzen xNets, um die schlüsselpunktbasierte Zielerkennung zu verbessern. Die neue Architektur erreicht mit 47,8 mAP im MS COCO-Datensatz eine höhere Zeiteffizienz als jeder andere Single-Shot-Detektor, verwendet dabei die Hälfte der Parameter und ist dreimal schneller zu trainieren als die nächstbesten Framework-Zeiten.
Wie in der Abbildung oben gezeigt, sind die Parameter und die Effizienz von xNet müssen weitaus mehr sein als bei anderen Modellen. Unter diesen hat FSAF die beste Wirkung unter den ankerbasierten Detektoren und übertrifft das klassische RetinaNet. Das von den Forschern vorgeschlagene Modell übertrifft alle anderen Single-Shot-Architekturen mit einer ähnlichen Anzahl an Parametern.
Die Objekterkennung ist eine der am häufigsten untersuchten Aufgaben im Computer Vision, mit vielen Anwendungen auf andere Vision-Aufgaben, wie Objektverfolgung, Instanzsegmentierung und Bildunterschrift. Objekterkennungsstrukturen können in zwei Kategorien unterteilt werden: Einzelschussdetektor und Zweistufendetektor #🎜 🎜 #. Zweistufige Detektoren nutzen ein Regionsvorschlagsnetzwerk, um eine feste Anzahl von Objektkandidaten zu finden, und verwenden dann ein zweites Netzwerk, um die Punktzahl jedes Kandidaten vorherzusagen und seinen Begrenzungsrahmen zu verbessern.
Gemeinsamer zweistufiger AlgorithmusSingle-Shot-Detektor kann auch unterteilt werden Es gibt zwei Kategorien: ankerbasierte Detektoren und schlüsselpunktbasierte Detektoren. Ankerbasierte Detektoren enthalten viele Ankerbegrenzungsrahmen und sagen dann den Versatz und die Klasse jeder Vorlage voraus. Die bekannteste ankerbasierte Architektur ist RetinaNet, die eine Fokusverlustfunktion vorschlägt, um das Klassenungleichgewicht der Ankerbegrenzungsrahmen zu korrigieren. Der leistungsstärkste ankerbasierte Detektor ist FSAF. FSAF integriert ankerbasierte Ausgänge mit ankerlosen Ausgabeköpfen, um die Leistung weiter zu verbessern.
Andererseits sagt der Schlüsselpunkt-basierte Detektor die Heatmap für die obere linke und untere rechte Ecke voraus und gleicht sie mithilfe von Feature-Einbettungen ab. Der ursprüngliche schlüsselpunktbasierte Detektor ist CornerNet, der eine spezielle Coener-Pooling-Schicht verwendet, um Objekte unterschiedlicher Größe genau zu erkennen. Seitdem hat Centerne die CornerNet-Architektur durch die Vorhersage von Objektzentren und -ecken erheblich verbessert.
MatrixnetzeDie folgende Abbildung zeigt Matrixnetze (xNets) unter Verwendung einer hierarchischen Matrixmodellierung mit unterschiedlichen Größen und Plexusquerverhältnissen. Das Ziel, wobei jeder Eintrag i, j in der Matrix eine Ebene li,j darstellt, die Breite in der oberen linken Ecke der Matrix l1,1 um 2^(i-1) und die Höhe um 2^(j heruntergerechnet wird -1). Diagonale Schichten sind quadratische Schichten unterschiedlicher Größe, die einem FPN entsprechen, während nicht-diagonale Schichten rechteckige Schichten sind (dies gibt es nur bei xNets). Ebene l1,1 ist die größte Ebene. Die Breite der Ebene wird für jede Stufe nach rechts halbiert, und die Höhe wird für jede Stufe nach rechts halbiert.
Zum Beispiel ist die Ebene l3,4 halb so breit wie die Ebene l3,3. Diagonale Ebenen modellieren Objekte, deren Seitenverhältnis nahezu quadratisch ist, während nichtdiagonale Ebenen Objekte modellieren, deren Seitenverhältnis nicht nahezu quadratisch ist. Ebenen in der Nähe der oberen rechten oder unteren linken Ecke der Matrix modellieren Objekte mit extrem hohen oder niedrigen Seitenverhältnissen. Solche Ziele sind sehr selten und können daher beschnitten werden, um die Effizienz zu verbessern.
Das Generieren der Matrixebene ist ein kritischer Schritt, da es die Modellparameter beeinflusst Menge. Je mehr Parameter vorhanden sind, desto stärker ist der Modellausdruck und desto schwieriger ist das Optimierungsproblem. Daher entscheiden sich Forscher dafür, so wenige neue Parameter wie möglich einzuführen. Diagonale Schichten können aus verschiedenen Stufen des Backbones oder mithilfe eines Feature-Pyramiden-Frameworks erhalten werden. Die obere dreieckige Schicht wird durch Anwenden einer Reihe gemeinsamer 3x3-Windungen mit 1x2-Schritten auf der diagonalen Schicht erhalten. In ähnlicher Weise wird die untere linke Ebene durch eine gemeinsame 3x3-Faltung mit einer Schrittweite von 2x1 erhalten. Parameter werden von allen Downsampling-Faltungen gemeinsam genutzt, um die Anzahl neuer Parameter zu minimieren.
Jede Ebene in der Matrix modelliert ein Ziel mit einer bestimmten Breite und Höhe, daher müssen wir den Breiten- und Höhenbereich definieren, der dem Ziel für jede Ebene in der Matrix zugewiesen ist. Der Bereich muss das Empfangsfeld des Merkmalsvektors der Matrixschicht widerspiegeln. Jeder Schritt nach rechts in der Matrix verdoppelt effektiv das Empfangsfeld in der horizontalen Dimension, und jeder Schritt verdoppelt das Empfangsfeld in der vertikalen Dimension. Wenn wir uns also in der Matrix nach rechts oder unten bewegen, muss sich der Breiten- oder Höhenbereich verdoppeln. Sobald der Bereich für die erste Schicht l1,1 definiert ist, können wir die oben genannten Regeln verwenden, um Bereiche für den Rest der Matrixschicht zu generieren.
Der Hauptvorteil von Matrixnetzen besteht darin, dass sie es quadratischen Faltungskernen ermöglichen, Informationen über verschiedene Seitenverhältnisse genau zu sammeln. In herkömmlichen Objekterkennungsmodellen wie RetinaNet ist ein quadratischer Faltungskern erforderlich, um unterschiedliche Seitenverhältnisse und Maßstäbe auszugeben. Dies ist kontraintuitiv, da unterschiedliche Aspekte des Begrenzungsrahmens unterschiedliche Hintergründe erfordern. Da sich in Matrixnetzen der Kontext jeder Matrixschicht ändert, kann derselbe quadratische Faltungskern für Begrenzungsrahmen unterschiedlicher Maßstäbe und Seitenverhältnisse verwendet werden.
Da die Zielgröße innerhalb der vorgesehenen Ebene nahezu einheitlich ist, ist der dynamische Breiten- und Höhenbereich im Vergleich zu anderen Architekturen (z. B. FPN) kleiner. Daher wird die Regression der Höhe und Breite des Ziels zu einem einfacheren Optimierungsproblem. Schließlich können Matrixnetze als beliebige Objekterkennungsarchitektur, ankerbasiert oder schlüsselpunktbasiert, als One-Shot- oder Two-Shot-Detektor verwendet werden.
Als CornerNet vorgeschlagen wurde, sollte es die ankerbasierte Erkennung ersetzen. Es verwendete ein Eckpaar (obere linke Ecke und untere rechte Ecke). Begrenzungsrahmen vorhersagen. Für jede Ecke sagt CornerNet Heatmaps, Offsets und Einbettungen voraus.
Das obige Bild ist das auf Schlüsselpunkten basierende Zielerkennungs-Framework – KP-xNet, das 4 Schritte enthält.
Die folgende Tabelle zeigt die Ergebnisse des MS COCO-Datensatzes:
Die Forscher verglichen das neu vorgeschlagene Modell auch mit anderen Modellen auf anderen Grundgerüsten basierend auf der Anzahl der Parameter. In der ersten Abbildung stellen wir fest, dass KP-xNet alle anderen Strukturen auf allen Parameterebenen übertrifft. Die Forscher glauben, dass dies darauf zurückzuführen ist, dass KP-xNet eine skalen- und seitenverhältnisbewusste Architektur verwendet.
Papieradresse: https://arxiv.org/pdf/1908.04646.pdf
Das obige ist der detaillierte Inhalt vonDie neueste Deep-Architektur zur Zielerkennung hat die Hälfte der Parameter und ist dreimal schneller +. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!