Die neueste Deep-Architektur zur Zielerkennung hat die Hälfte der Parameter und ist dreimal schneller +

王林
Freigeben: 2023-04-09 11:41:03
nach vorne
1493 Leute haben es durchsucht

Kurze Einführung

Die Forschungsautoren schlagen Matrix Net (xNet) vor, eine neue tiefe Architektur zur Objekterkennung. xNets bilden Objekte mit unterschiedlichen Größenabmessungen und Seitenverhältnissen in Netzwerkschichten ab, wobei die Objekte innerhalb der Schicht nahezu einheitlich in Größe und Seitenverhältnis sind. Daher bieten xNets eine Architektur, die Größe und Seitenverhältnis berücksichtigt. Forscher nutzen xNets, um die schlüsselpunktbasierte Zielerkennung zu verbessern. Die neue Architektur erreicht mit 47,8 mAP im MS COCO-Datensatz eine höhere Zeiteffizienz als jeder andere Single-Shot-Detektor, verwendet dabei die Hälfte der Parameter und ist dreimal schneller zu trainieren als die nächstbesten Framework-Zeiten.

Einfache Ergebnisanzeige

Die neueste Deep-Architektur zur Zielerkennung hat die Hälfte der Parameter und ist dreimal schneller +

Wie in der Abbildung oben gezeigt, sind die Parameter und die Effizienz von xNet müssen weitaus mehr sein als bei anderen Modellen. Unter diesen hat FSAF die beste Wirkung unter den ankerbasierten Detektoren und übertrifft das klassische RetinaNet. Das von den Forschern vorgeschlagene Modell übertrifft alle anderen Single-Shot-Architekturen mit einer ähnlichen Anzahl an Parametern.

Hintergrund und aktuelle Situation

Die Objekterkennung ist eine der am häufigsten untersuchten Aufgaben im Computer Vision, mit vielen Anwendungen auf andere Vision-Aufgaben, wie Objektverfolgung, Instanzsegmentierung und Bildunterschrift. Objekterkennungsstrukturen können in zwei Kategorien unterteilt werden: Einzelschussdetektor und Zweistufendetektor #🎜 🎜 #. Zweistufige Detektoren nutzen ein Regionsvorschlagsnetzwerk, um eine feste Anzahl von Objektkandidaten zu finden, und verwenden dann ein zweites Netzwerk, um die Punktzahl jedes Kandidaten vorherzusagen und seinen Begrenzungsrahmen zu verbessern.

Gemeinsamer zweistufiger Algorithmus

Die neueste Deep-Architektur zur Zielerkennung hat die Hälfte der Parameter und ist dreimal schneller +

Single-Shot-Detektor kann auch unterteilt werden Es gibt zwei Kategorien: ankerbasierte Detektoren und schlüsselpunktbasierte Detektoren. Ankerbasierte Detektoren enthalten viele Ankerbegrenzungsrahmen und sagen dann den Versatz und die Klasse jeder Vorlage voraus. Die bekannteste ankerbasierte Architektur ist RetinaNet, die eine Fokusverlustfunktion vorschlägt, um das Klassenungleichgewicht der Ankerbegrenzungsrahmen zu korrigieren. Der leistungsstärkste ankerbasierte Detektor ist FSAF. FSAF integriert ankerbasierte Ausgänge mit ankerlosen Ausgabeköpfen, um die Leistung weiter zu verbessern.

Andererseits sagt der Schlüsselpunkt-basierte Detektor die Heatmap für die obere linke und untere rechte Ecke voraus und gleicht sie mithilfe von Feature-Einbettungen ab. Der ursprüngliche schlüsselpunktbasierte Detektor ist CornerNet, der eine spezielle Coener-Pooling-Schicht verwendet, um Objekte unterschiedlicher Größe genau zu erkennen. Seitdem hat Centerne die CornerNet-Architektur durch die Vorhersage von Objektzentren und -ecken erheblich verbessert.

Matrixnetze

Die folgende Abbildung zeigt Matrixnetze (xNets) unter Verwendung einer hierarchischen Matrixmodellierung mit unterschiedlichen Größen und Plexusquerverhältnissen. Das Ziel, wobei jeder Eintrag i, j in der Matrix eine Ebene li,j darstellt, die Breite in der oberen linken Ecke der Matrix l1,1 um 2^(i-1) und die Höhe um 2^(j heruntergerechnet wird -1). Diagonale Schichten sind quadratische Schichten unterschiedlicher Größe, die einem FPN entsprechen, während nicht-diagonale Schichten rechteckige Schichten sind (dies gibt es nur bei xNets). Ebene l1,1 ist die größte Ebene. Die Breite der Ebene wird für jede Stufe nach rechts halbiert, und die Höhe wird für jede Stufe nach rechts halbiert.

Die neueste Deep-Architektur zur Zielerkennung hat die Hälfte der Parameter und ist dreimal schneller +

Zum Beispiel ist die Ebene l3,4 halb so breit wie die Ebene l3,3. Diagonale Ebenen modellieren Objekte, deren Seitenverhältnis nahezu quadratisch ist, während nichtdiagonale Ebenen Objekte modellieren, deren Seitenverhältnis nicht nahezu quadratisch ist. Ebenen in der Nähe der oberen rechten oder unteren linken Ecke der Matrix modellieren Objekte mit extrem hohen oder niedrigen Seitenverhältnissen. Solche Ziele sind sehr selten und können daher beschnitten werden, um die Effizienz zu verbessern.

1、Ebenengenerierung

Das Generieren der Matrixebene ist ein kritischer Schritt, da es die Modellparameter beeinflusst Menge. Je mehr Parameter vorhanden sind, desto stärker ist der Modellausdruck und desto schwieriger ist das Optimierungsproblem. Daher entscheiden sich Forscher dafür, so wenige neue Parameter wie möglich einzuführen. Diagonale Schichten können aus verschiedenen Stufen des Backbones oder mithilfe eines Feature-Pyramiden-Frameworks erhalten werden. Die obere dreieckige Schicht wird durch Anwenden einer Reihe gemeinsamer 3x3-Windungen mit 1x2-Schritten auf der diagonalen Schicht erhalten. In ähnlicher Weise wird die untere linke Ebene durch eine gemeinsame 3x3-Faltung mit einer Schrittweite von 2x1 erhalten. Parameter werden von allen Downsampling-Faltungen gemeinsam genutzt, um die Anzahl neuer Parameter zu minimieren.

2. Ebenenbereich

Jede Ebene in der Matrix modelliert ein Ziel mit einer bestimmten Breite und Höhe, daher müssen wir den Breiten- und Höhenbereich definieren, der dem Ziel für jede Ebene in der Matrix zugewiesen ist. Der Bereich muss das Empfangsfeld des Merkmalsvektors der Matrixschicht widerspiegeln. Jeder Schritt nach rechts in der Matrix verdoppelt effektiv das Empfangsfeld in der horizontalen Dimension, und jeder Schritt verdoppelt das Empfangsfeld in der vertikalen Dimension. Wenn wir uns also in der Matrix nach rechts oder unten bewegen, muss sich der Breiten- oder Höhenbereich verdoppeln. Sobald der Bereich für die erste Schicht l1,1 definiert ist, können wir die oben genannten Regeln verwenden, um Bereiche für den Rest der Matrixschicht zu generieren.

3. Vorteile von Matrixnetzen

Der Hauptvorteil von Matrixnetzen besteht darin, dass sie es quadratischen Faltungskernen ermöglichen, Informationen über verschiedene Seitenverhältnisse genau zu sammeln. In herkömmlichen Objekterkennungsmodellen wie RetinaNet ist ein quadratischer Faltungskern erforderlich, um unterschiedliche Seitenverhältnisse und Maßstäbe auszugeben. Dies ist kontraintuitiv, da unterschiedliche Aspekte des Begrenzungsrahmens unterschiedliche Hintergründe erfordern. Da sich in Matrixnetzen der Kontext jeder Matrixschicht ändert, kann derselbe quadratische Faltungskern für Begrenzungsrahmen unterschiedlicher Maßstäbe und Seitenverhältnisse verwendet werden.

Da die Zielgröße innerhalb der vorgesehenen Ebene nahezu einheitlich ist, ist der dynamische Breiten- und Höhenbereich im Vergleich zu anderen Architekturen (z. B. FPN) kleiner. Daher wird die Regression der Höhe und Breite des Ziels zu einem einfacheren Optimierungsproblem. Schließlich können Matrixnetze als beliebige Objekterkennungsarchitektur, ankerbasiert oder schlüsselpunktbasiert, als One-Shot- oder Two-Shot-Detektor verwendet werden.

Matrixnetze werden für die punktbasierte Erkennung verwendet

Als CornerNet vorgeschlagen wurde, sollte es die ankerbasierte Erkennung ersetzen. Es verwendete ein Eckpaar (obere linke Ecke und untere rechte Ecke). Begrenzungsrahmen vorhersagen. Für jede Ecke sagt CornerNet Heatmaps, Offsets und Einbettungen voraus. Die neueste Deep-Architektur zur Zielerkennung hat die Hälfte der Parameter und ist dreimal schneller +

Das obige Bild ist das auf Schlüsselpunkten basierende Zielerkennungs-Framework – KP-xNet, das 4 Schritte enthält.

  • (a-b): Das Backbone von xNet wird verwendet;
  • (c): Das gemeinsame Ausgabe-Subnetzwerk wird verwendet und für jede Matrixebene die Heatmap und der Offset oben links und unten rechts Ecken sind vorhergesagte Größen und führen eine Mittelpunktvorhersage für sie innerhalb der Zielebene durch.
  • (d): Verwenden Sie die Mittelpunktvorhersage, um die Ecken in derselben Ebene abzugleichen, und kombinieren Sie dann die Ausgabe aller Ebenen mit weichen Nicht- Maximale Unterdrückung, um die endgültige Ausgabe zu erhalten.

Experimentelle Ergebnisse

Die folgende Tabelle zeigt die Ergebnisse des MS COCO-Datensatzes:

Die neueste Deep-Architektur zur Zielerkennung hat die Hälfte der Parameter und ist dreimal schneller +

Die Forscher verglichen das neu vorgeschlagene Modell auch mit anderen Modellen auf anderen Grundgerüsten basierend auf der Anzahl der Parameter. In der ersten Abbildung stellen wir fest, dass KP-xNet alle anderen Strukturen auf allen Parameterebenen übertrifft. Die Forscher glauben, dass dies darauf zurückzuführen ist, dass KP-xNet eine skalen- und seitenverhältnisbewusste Architektur verwendet.

Papieradresse: https://arxiv.org/pdf/1908.04646.pdf

Das obige ist der detaillierte Inhalt vonDie neueste Deep-Architektur zur Zielerkennung hat die Hälfte der Parameter und ist dreimal schneller +. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage