YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps-KI-php.cn

Inhaltsverzeichnis

01 Zusammenfassung

02 Hintergrund

Heim

Technologie-Peripheriegeräte

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 12, 2024 pm 05:49 PM

特征 Faltung

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

Papieradresse: YOLOCS: Object Detection based on Dense Channel Compression for Feature Spatial Solidification (arxiv.org)

01 Zusammenfassung

In der heutigen Freigabe untersuchte der Forscher die Merkmale der Merkmalsreinigung und des Gradienten Korrelation zwischen Kanaleigenschaften und Faltungskernen während der Rückausbreitung, wobei der Schwerpunkt auf der Vorwärts- und Rückwärtsausbreitung innerhalb des Netzwerks liegt. Daher schlugen die Forscher eine Methode zur Verfestigung des Merkmalsraums vor, die als dichte Kanalkomprimierung bezeichnet wird. Basierend auf den Kernkonzepten der Methode werden zwei innovative Module für Backbone- und Head-Netzwerke vorgestellt: Dense-Channel-Compression (DCFS) zur Feature-Space-Solidifizierung und asymmetrische Multi-Level-Compression-Decoupled-Head (ADH). Bei der Integration in das YOLOv5-Modell zeigten diese beiden Module eine außergewöhnliche Leistung, was zu einem verbesserten Modell namens YOLOCS führte.

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

Ausgewertet anhand des MSCOCO-Datensatzes beträgt der AP der großen, mittleren und kleinen YOLOCS-Modelle 50,1 %, 47,6 % bzw. 42,5 %. Unter Beibehaltung einer ähnlichen Inferenzgeschwindigkeit wie das YOLOv5-Modell erzielten die großen, mittleren und kleinen YOLOCS-Modelle 1,1 %, 2,3 % bzw. 5,2 % Vorteile gegenüber dem AP von YOLOv5.

02 Hintergrund

In den letzten Jahren hat die Objekterkennungstechnologie im Bereich Computer Vision große Aufmerksamkeit erhalten. Dazu gehören die Zielerkennungstechnologie, die auf dem Single-Shot-Multi-Box-Algorithmus (Single Shot Multi Box Detector, kurz SSD) basiert, und die Zielerkennungstechnologie, die auf dem Faltungs-Neuronalen Netzwerk (Convolutional Neural Networks, kurz CNN) basiert die beiden am häufigsten verwendeten Zielerkennungstechnologien. Aufgrund der geringen Genauigkeit des Single-Shot-Multi-Frame-Algorithmus und der hohen Rechenkomplexität der auf Faltungs-Neuronalen Netzen basierenden Zielerkennungstechnologie ist die Suche nach einer effizienten und hochpräzisen Zielerkennungstechnologie jedoch zu einem Brennpunkt in der aktuellen Forschung geworden. eins.

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

Dense Channel Compression (DCC) ist eine neue Convolutional Neural Network-Komprimierungstechnologie, die eine Komprimierung und Beschleunigung von Netzwerkparametern durch räumliche Verfestigung der Feature-Maps im Convolutional Neural Network erreicht. Allerdings ist die Anwendung der DCC-Technologie im Bereich der Zielerkennung noch nicht vollständig untersucht. Die Dense-Channel-Compression-Technologie (DCC) zielt darauf ab, die Recheneffizienz durch Reduzierung der Anzahl der Netzwerkparameter zu verbessern. Insbesondere reduziert DCC die Anzahl der Parameter der Faltungsschicht, indem es eine Kanalkomprimierung an der Ausgabe-Feature-Map der Faltungsschicht durchführt. Diese Komprimierungstechnik kann durch Entfernen redundanter und unnötiger Kanäle oder durch den Einsatz von Methoden wie der Low-Rank-Zerlegung erreicht werden. Obwohl die DCC-Technologie bei Bildklassifizierungsaufgaben sehr effektiv ist, wird daher eine auf Dense-Channel-Komprimierung basierende Zielerkennungstechnologie namens YOLOCS (YOLO mit Dense-Channel-Komprimierung) vorgeschlagen. Die YOLOCS-Technologie kombiniert die DCC-Technologie mit dem YOLO-Algorithmus (You Only Look Once), um eine effiziente und hochpräzise Verarbeitung der Zielerkennung zu erreichen. Insbesondere verwendet die YOLOCS-Technologie die DCC-Technologie, um die Feature-Map räumlich zu verfestigen und so eine präzise Positionierung der Zielposition zu erreichen. Gleichzeitig nutzt die YOLOCS-Technologie die Eigenschaften des Single-Shot-Multi-Frame-Algorithmus, um eine schnelle Zielklassifizierung zu erreichen Berechnung.

03 Neues Framework Das Problem zwischen Netzwerkbreite und -tiefe komprimiert auch Features aus verschiedenen Tiefenschichten durch 3×3-Faltung, wodurch die Anzahl der Kanäle vor der Ausgabe und Zusammenführung von Features um die Hälfte reduziert wird. Dieser Ansatz ermöglicht es Forschern, die Feature-Ausgaben aus verschiedenen Schichten stärker zu verfeinern und so die Feature-Vielfalt und Effektivität während der Fusionsphase zu verbessern.

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

Darüber hinaus weisen die komprimierten Merkmale jeder Schicht größere Faltungskerngewichte (3×3) auf, wodurch das Empfangsfeld der Ausgabemerkmale effektiv erweitert wird. Dieser Ansatz wird als Feature-Space-Solidified-Dense-Channel-Komprimierung bezeichnet. Der Grundgedanke hinter der dichten Kanalkomprimierung zur Verfestigung des Merkmalsraums beruht auf der Verwendung größerer Faltungskerne, um die Kanalkomprimierung zu erleichtern. Diese Technik hat zwei wesentliche Vorteile: Erstens erweitert sie das Empfangsfeld der Merkmalswahrnehmung während der Vorwärtsausbreitung und stellt so sicher, dass regional relevante Merkmalsdetails einbezogen werden, um den Merkmalsverlust während der Komprimierungsphase zu minimieren. Zweitens ermöglicht die Verbesserung der Fehlerdetails während der Fehler-Backpropagation eine genauere Gewichtsanpassung.

Um diese beiden Vorteile weiter zu veranschaulichen, werden zwei Kanäle mithilfe von Faltungen mit zwei verschiedenen Kerneltypen (1×1 und 3×3) komprimiert, wie unten gezeigt:

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

Netzwerk von DCFS Die Struktur wird angezeigt in der Abbildung unten. Es wird eine dreischichtige Engpassstruktur verwendet, um den Kanal während des Vorwärtsausbreitungsprozesses des Netzwerks schrittweise zu komprimieren. Auf alle Zweige wird eine Halbkanal-3×3-Faltung angewendet, gefolgt von Batch-Normalisierung (BN) und Aktivierungsfunktionsschichten. Anschließend wird eine 1 × 1-Faltungsschicht verwendet, um die Ausgabe-Feature-Kanäle so zu komprimieren, dass sie mit den Eingabe-Feature-Kanälen übereinstimmen.

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

asymmetrische mehrstufige Kanalkanalkomprimierung entkoppeltes Kopf (ADH)

in der Befehl, das entkoppelte Kopfproblem im Yolox-Modell zu lösen, führten die Forscher eine Reihe von einer Reihe von Forschen und experimentieren. Die Ergebnisse zeigen einen logischen Zusammenhang zwischen der Nutzung entkoppelter Kopfstrukturen und den damit verbundenen Verlustfunktionen. Konkret sollte für unterschiedliche Aufgabenstellungen der Aufbau des Entkopplungskopfes entsprechend der Komplexität der Verlustberechnung angepasst werden. Wenn die entkoppelte Kopfstruktur außerdem auf verschiedene Aufgaben angewendet wird, kann die direkte Komprimierung der Merkmalskanäle der vorherigen Schicht (wie unten gezeigt) in Aufgabenkanäle aufgrund von Unterschieden in den endgültigen Ausgabeabmessungen zu einem erheblichen Merkmalsverlust führen. Dies wiederum kann sich negativ auf die Gesamtleistung des Modells auswirken.

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

Darüber hinaus kann bei der Betrachtung der vorgeschlagenen Komprimierungsmethode für dichte Kanäle zur Verfestigung des Merkmalsraums die direkte Reduzierung der Anzahl der Kanäle in der letzten Schicht, um sie an die Ausgabekanäle anzupassen, zu einem Merkmalsverlust während der Vorwärtsausbreitung führen und somit die Netzwerkleistung verringern . Gleichzeitig kann diese Struktur im Kontext der Backpropagation zu einer suboptimalen Fehler-Backpropagation führen, was das Erreichen der Gradientenstabilität behindert. Um diesen Herausforderungen zu begegnen, wird ein neuer Entkopplungskopf eingeführt, ein sogenannter asymmetrischer mehrstufiger Kompressions-Entkopplungskopf (siehe Abbildung (b) unten).

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

Konkret vertieften die Forscher den Netzwerkpfad, der der Zielbewertungsaufgabe gewidmet war, und verwendeten drei Faltungen, um das Empfangsfeld und die Anzahl der Parameter der Aufgabe zu erweitern. Gleichzeitig werden die Merkmale jeder Faltungsschicht entlang der Kanaldimension komprimiert. Diese Methode lindert nicht nur effektiv die mit der Zielbewertungsaufgabe verbundenen Trainingsschwierigkeiten und verbessert die Modellleistung, sondern reduziert auch die Parameter und GFLOPs des entkoppelten Kopfmoduls erheblich, wodurch die Inferenzgeschwindigkeit erheblich verbessert wird. Darüber hinaus wird eine Faltungsschicht verwendet, um die Klassifizierungs- und Begrenzungsrahmenaufgaben zu trennen. Dies liegt daran, dass bei übereinstimmenden positiven Stichproben die mit beiden Aufgaben verbundenen Verluste relativ gering sind, wodurch eine Überdehnung vermieden wird. Dieser Ansatz reduziert Parameter und GFLOPs im Entkopplungsheader erheblich und erhöht letztendlich die Inferenzgeschwindigkeit. 04 Visualisierung des Experiments

YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps

Das obige ist der detaillierte Inhalt vonYoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055612 in Windows 10 nicht installieren?

3 Wochen vor By DDD

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Nordhold: Fusionssystem, erklärt

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1667

CakePHP-Tutorial

1426

Laravel-Tutorial

1328

PHP-Tutorial

1273

C#-Tutorial

1255

Related knowledge

10 generative AI -Codierungsweiterungen im VS -Code, die Sie untersuchen müssen Apr 13, 2025 am 01:14 AM

Hey da, codieren Ninja! Welche Codierungsaufgaben haben Sie für den Tag geplant? Bevor Sie weiter in diesen Blog eintauchen, möchte ich, dass Sie über all Ihre Coding-Leiden nachdenken-die Auflistung auflisten diese auf. Erledigt? - Lassen Sie &#8217

GPT-4O gegen OpenAI O1: Ist das neue OpenAI-Modell den Hype wert? Apr 13, 2025 am 10:18 AM

Einführung OpenAI hat sein neues Modell auf der Grundlage der mit Spannung erwarteten „Strawberry“ -Scharchitektur veröffentlicht. Dieses innovative Modell, bekannt als O1

Pixtral -12b: Mistral AIs erstes multimodales Modell - Analytics Vidhya Apr 13, 2025 am 11:20 AM

Einführung Mistral hat sein erstes multimodales Modell veröffentlicht, nämlich den Pixtral-12b-2409. Dieses Modell basiert auf dem 12 -Milliarden -Parameter von Mistral, NEMO 12b. Was unterscheidet dieses Modell? Es kann jetzt sowohl Bilder als auch Tex aufnehmen

Wie füge ich eine Spalte in SQL hinzu? - Analytics Vidhya Apr 17, 2025 am 11:43 AM

SQL -Änderungstabellanweisung: Dynamisches Hinzufügen von Spalten zu Ihrer Datenbank Im Datenmanagement ist die Anpassungsfähigkeit von SQL von entscheidender Bedeutung. Müssen Sie Ihre Datenbankstruktur im laufenden Flug anpassen? Die Änderungstabelleerklärung ist Ihre Lösung. Diese Anleitung Details Hinzufügen von Colu

Wie baue ich multimodale KI -Agenten mit AGNO -Framework auf? Apr 23, 2025 am 11:30 AM

Während der Arbeit an Agentic AI navigieren Entwickler häufig die Kompromisse zwischen Geschwindigkeit, Flexibilität und Ressourceneffizienz. Ich habe den Agenten-KI-Framework untersucht und bin auf Agno gestoßen (früher war es phi-

Jenseits des Lama -Dramas: 4 neue Benchmarks für große Sprachmodelle Apr 14, 2025 am 11:09 AM

Schwierige Benchmarks: Eine Lama -Fallstudie Anfang April 2025 stellte Meta seine Lama 4-Suite von Models vor und stellte beeindruckende Leistungsmetriken vor, die sie positiv gegen Konkurrenten wie GPT-4O und Claude 3.5 Sonnet positionierten. Zentral im Launc

OpenAI-Verschiebungen Fokus mit GPT-4.1, priorisiert die Codierung und Kosteneffizienz Apr 16, 2025 am 11:37 AM

Die Veröffentlichung umfasst drei verschiedene Modelle, GPT-4.1, GPT-4.1 Mini und GPT-4.1-Nano, die einen Zug zu aufgabenspezifischen Optimierungen innerhalb der Landschaft des Großsprachenmodells signalisieren. Diese Modelle ersetzen nicht sofort benutzergerichtete Schnittstellen wie

Wie ADHS -Spiele, Gesundheitstools und KI -Chatbots die globale Gesundheit verändern Apr 14, 2025 am 11:27 AM

Kann ein Videospiel Angst erleichtern, Fokus aufbauen oder ein Kind mit ADHS unterstützen? Da die Herausforderungen im Gesundheitswesen weltweit steigen - insbesondere bei Jugendlichen - wenden sich Innovatoren einem unwahrscheinlichen Tool zu: Videospiele. Jetzt einer der größten Unterhaltungsindus der Welt

See all articles