


YoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps
Papieradresse: YOLOCS: Object Detection based on Dense Channel Compression for Feature Spatial Solidification (arxiv.org)
01 Zusammenfassung
In der heutigen Freigabe untersuchte der Forscher die Merkmale der Merkmalsreinigung und des Gradienten Korrelation zwischen Kanaleigenschaften und Faltungskernen während der Rückausbreitung, wobei der Schwerpunkt auf der Vorwärts- und Rückwärtsausbreitung innerhalb des Netzwerks liegt. Daher schlugen die Forscher eine Methode zur Verfestigung des Merkmalsraums vor, die als dichte Kanalkomprimierung bezeichnet wird. Basierend auf den Kernkonzepten der Methode werden zwei innovative Module für Backbone- und Head-Netzwerke vorgestellt: Dense-Channel-Compression (DCFS) zur Feature-Space-Solidifizierung und asymmetrische Multi-Level-Compression-Decoupled-Head (ADH). Bei der Integration in das YOLOv5-Modell zeigten diese beiden Module eine außergewöhnliche Leistung, was zu einem verbesserten Modell namens YOLOCS führte.
Ausgewertet anhand des MSCOCO-Datensatzes beträgt der AP der großen, mittleren und kleinen YOLOCS-Modelle 50,1 %, 47,6 % bzw. 42,5 %. Unter Beibehaltung einer ähnlichen Inferenzgeschwindigkeit wie das YOLOv5-Modell erzielten die großen, mittleren und kleinen YOLOCS-Modelle 1,1 %, 2,3 % bzw. 5,2 % Vorteile gegenüber dem AP von YOLOv5.
02 Hintergrund
In den letzten Jahren hat die Objekterkennungstechnologie im Bereich Computer Vision große Aufmerksamkeit erhalten. Dazu gehören die Zielerkennungstechnologie, die auf dem Single-Shot-Multi-Box-Algorithmus (Single Shot Multi Box Detector, kurz SSD) basiert, und die Zielerkennungstechnologie, die auf dem Faltungs-Neuronalen Netzwerk (Convolutional Neural Networks, kurz CNN) basiert die beiden am häufigsten verwendeten Zielerkennungstechnologien. Aufgrund der geringen Genauigkeit des Single-Shot-Multi-Frame-Algorithmus und der hohen Rechenkomplexität der auf Faltungs-Neuronalen Netzen basierenden Zielerkennungstechnologie ist die Suche nach einer effizienten und hochpräzisen Zielerkennungstechnologie jedoch zu einem Brennpunkt in der aktuellen Forschung geworden. eins.
Dense Channel Compression (DCC) ist eine neue Convolutional Neural Network-Komprimierungstechnologie, die eine Komprimierung und Beschleunigung von Netzwerkparametern durch räumliche Verfestigung der Feature-Maps im Convolutional Neural Network erreicht. Allerdings ist die Anwendung der DCC-Technologie im Bereich der Zielerkennung noch nicht vollständig untersucht. Die Dense-Channel-Compression-Technologie (DCC) zielt darauf ab, die Recheneffizienz durch Reduzierung der Anzahl der Netzwerkparameter zu verbessern. Insbesondere reduziert DCC die Anzahl der Parameter der Faltungsschicht, indem es eine Kanalkomprimierung an der Ausgabe-Feature-Map der Faltungsschicht durchführt. Diese Komprimierungstechnik kann durch Entfernen redundanter und unnötiger Kanäle oder durch den Einsatz von Methoden wie der Low-Rank-Zerlegung erreicht werden. Obwohl die DCC-Technologie bei Bildklassifizierungsaufgaben sehr effektiv ist, wird daher eine auf Dense-Channel-Komprimierung basierende Zielerkennungstechnologie namens YOLOCS (YOLO mit Dense-Channel-Komprimierung) vorgeschlagen. Die YOLOCS-Technologie kombiniert die DCC-Technologie mit dem YOLO-Algorithmus (You Only Look Once), um eine effiziente und hochpräzise Verarbeitung der Zielerkennung zu erreichen. Insbesondere verwendet die YOLOCS-Technologie die DCC-Technologie, um die Feature-Map räumlich zu verfestigen und so eine präzise Positionierung der Zielposition zu erreichen. Gleichzeitig nutzt die YOLOCS-Technologie die Eigenschaften des Single-Shot-Multi-Frame-Algorithmus, um eine schnelle Zielklassifizierung zu erreichen Berechnung.
03 Neues Framework Das Problem zwischen Netzwerkbreite und -tiefe komprimiert auch Features aus verschiedenen Tiefenschichten durch 3×3-Faltung, wodurch die Anzahl der Kanäle vor der Ausgabe und Zusammenführung von Features um die Hälfte reduziert wird. Dieser Ansatz ermöglicht es Forschern, die Feature-Ausgaben aus verschiedenen Schichten stärker zu verfeinern und so die Feature-Vielfalt und Effektivität während der Fusionsphase zu verbessern.Darüber hinaus weisen die komprimierten Merkmale jeder Schicht größere Faltungskerngewichte (3×3) auf, wodurch das Empfangsfeld der Ausgabemerkmale effektiv erweitert wird. Dieser Ansatz wird als Feature-Space-Solidified-Dense-Channel-Komprimierung bezeichnet. Der Grundgedanke hinter der dichten Kanalkomprimierung zur Verfestigung des Merkmalsraums beruht auf der Verwendung größerer Faltungskerne, um die Kanalkomprimierung zu erleichtern. Diese Technik hat zwei wesentliche Vorteile: Erstens erweitert sie das Empfangsfeld der Merkmalswahrnehmung während der Vorwärtsausbreitung und stellt so sicher, dass regional relevante Merkmalsdetails einbezogen werden, um den Merkmalsverlust während der Komprimierungsphase zu minimieren. Zweitens ermöglicht die Verbesserung der Fehlerdetails während der Fehler-Backpropagation eine genauere Gewichtsanpassung.
Um diese beiden Vorteile weiter zu veranschaulichen, werden zwei Kanäle mithilfe von Faltungen mit zwei verschiedenen Kerneltypen (1×1 und 3×3) komprimiert, wie unten gezeigt:
Netzwerk von DCFS Die Struktur wird angezeigt in der Abbildung unten. Es wird eine dreischichtige Engpassstruktur verwendet, um den Kanal während des Vorwärtsausbreitungsprozesses des Netzwerks schrittweise zu komprimieren. Auf alle Zweige wird eine Halbkanal-3×3-Faltung angewendet, gefolgt von Batch-Normalisierung (BN) und Aktivierungsfunktionsschichten. Anschließend wird eine 1 × 1-Faltungsschicht verwendet, um die Ausgabe-Feature-Kanäle so zu komprimieren, dass sie mit den Eingabe-Feature-Kanälen übereinstimmen.
- asymmetrische mehrstufige Kanalkanalkomprimierung entkoppeltes Kopf (ADH)
in der Befehl, das entkoppelte Kopfproblem im Yolox-Modell zu lösen, führten die Forscher eine Reihe von einer Reihe von Forschen und experimentieren. Die Ergebnisse zeigen einen logischen Zusammenhang zwischen der Nutzung entkoppelter Kopfstrukturen und den damit verbundenen Verlustfunktionen. Konkret sollte für unterschiedliche Aufgabenstellungen der Aufbau des Entkopplungskopfes entsprechend der Komplexität der Verlustberechnung angepasst werden. Wenn die entkoppelte Kopfstruktur außerdem auf verschiedene Aufgaben angewendet wird, kann die direkte Komprimierung der Merkmalskanäle der vorherigen Schicht (wie unten gezeigt) in Aufgabenkanäle aufgrund von Unterschieden in den endgültigen Ausgabeabmessungen zu einem erheblichen Merkmalsverlust führen. Dies wiederum kann sich negativ auf die Gesamtleistung des Modells auswirken.
Darüber hinaus kann bei der Betrachtung der vorgeschlagenen Komprimierungsmethode für dichte Kanäle zur Verfestigung des Merkmalsraums die direkte Reduzierung der Anzahl der Kanäle in der letzten Schicht, um sie an die Ausgabekanäle anzupassen, zu einem Merkmalsverlust während der Vorwärtsausbreitung führen und somit die Netzwerkleistung verringern . Gleichzeitig kann diese Struktur im Kontext der Backpropagation zu einer suboptimalen Fehler-Backpropagation führen, was das Erreichen der Gradientenstabilität behindert. Um diesen Herausforderungen zu begegnen, wird ein neuer Entkopplungskopf eingeführt, ein sogenannter asymmetrischer mehrstufiger Kompressions-Entkopplungskopf (siehe Abbildung (b) unten).
Konkret vertieften die Forscher den Netzwerkpfad, der der Zielbewertungsaufgabe gewidmet war, und verwendeten drei Faltungen, um das Empfangsfeld und die Anzahl der Parameter der Aufgabe zu erweitern. Gleichzeitig werden die Merkmale jeder Faltungsschicht entlang der Kanaldimension komprimiert. Diese Methode lindert nicht nur effektiv die mit der Zielbewertungsaufgabe verbundenen Trainingsschwierigkeiten und verbessert die Modellleistung, sondern reduziert auch die Parameter und GFLOPs des entkoppelten Kopfmoduls erheblich, wodurch die Inferenzgeschwindigkeit erheblich verbessert wird. Darüber hinaus wird eine Faltungsschicht verwendet, um die Klassifizierungs- und Begrenzungsrahmenaufgaben zu trennen. Dies liegt daran, dass bei übereinstimmenden positiven Stichproben die mit beiden Aufgaben verbundenen Verluste relativ gering sind, wodurch eine Überdehnung vermieden wird. Dieser Ansatz reduziert Parameter und GFLOPs im Entkopplungsheader erheblich und erhöht letztendlich die Inferenzgeschwindigkeit. 04 Visualisierung des Experiments
Das obige ist der detaillierte Inhalt vonYoloCS: Reduzieren Sie effektiv die räumliche Komplexität von Feature-Maps. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen











Hey da, codieren Ninja! Welche Codierungsaufgaben haben Sie für den Tag geplant? Bevor Sie weiter in diesen Blog eintauchen, möchte ich, dass Sie über all Ihre Coding-Leiden nachdenken-die Auflistung auflisten diese auf. Erledigt? - Lassen Sie ’

Einführung OpenAI hat sein neues Modell auf der Grundlage der mit Spannung erwarteten „Strawberry“ -Scharchitektur veröffentlicht. Dieses innovative Modell, bekannt als O1

Einführung Mistral hat sein erstes multimodales Modell veröffentlicht, nämlich den Pixtral-12b-2409. Dieses Modell basiert auf dem 12 -Milliarden -Parameter von Mistral, NEMO 12b. Was unterscheidet dieses Modell? Es kann jetzt sowohl Bilder als auch Tex aufnehmen

SQL -Änderungstabellanweisung: Dynamisches Hinzufügen von Spalten zu Ihrer Datenbank Im Datenmanagement ist die Anpassungsfähigkeit von SQL von entscheidender Bedeutung. Müssen Sie Ihre Datenbankstruktur im laufenden Flug anpassen? Die Änderungstabelleerklärung ist Ihre Lösung. Diese Anleitung Details Hinzufügen von Colu

Während der Arbeit an Agentic AI navigieren Entwickler häufig die Kompromisse zwischen Geschwindigkeit, Flexibilität und Ressourceneffizienz. Ich habe den Agenten-KI-Framework untersucht und bin auf Agno gestoßen (früher war es phi-

Schwierige Benchmarks: Eine Lama -Fallstudie Anfang April 2025 stellte Meta seine Lama 4-Suite von Models vor und stellte beeindruckende Leistungsmetriken vor, die sie positiv gegen Konkurrenten wie GPT-4O und Claude 3.5 Sonnet positionierten. Zentral im Launc

Die Veröffentlichung umfasst drei verschiedene Modelle, GPT-4.1, GPT-4.1 Mini und GPT-4.1-Nano, die einen Zug zu aufgabenspezifischen Optimierungen innerhalb der Landschaft des Großsprachenmodells signalisieren. Diese Modelle ersetzen nicht sofort benutzergerichtete Schnittstellen wie

Kann ein Videospiel Angst erleichtern, Fokus aufbauen oder ein Kind mit ADHS unterstützen? Da die Herausforderungen im Gesundheitswesen weltweit steigen - insbesondere bei Jugendlichen - wenden sich Innovatoren einem unwahrscheinlichen Tool zu: Videospiele. Jetzt einer der größten Unterhaltungsindus der Welt
