YOLO ist unsterblich! YOLOv9 wird veröffentlicht: Leistung und Geschwindigkeit SOTA~

王林
Freigeben: 2024-02-26 11:31:36
nach vorne
1203 Leute haben es durchsucht

Heutige Deep-Learning-Methoden konzentrieren sich auf den Entwurf der am besten geeigneten Zielfunktion, damit die Vorhersageergebnisse des Modells der tatsächlichen Situation am nächsten kommen. Gleichzeitig muss eine geeignete Architektur entworfen werden, um ausreichend Informationen für die Vorhersage zu erhalten. Bestehende Methoden ignorieren die Tatsache, dass bei der schichtweisen Merkmalsextraktion und räumlichen Transformation der Eingabedaten eine große Menge an Informationen verloren geht. Dieser Artikel befasst sich mit wichtigen Themen bei der Datenübertragung über tiefe Netzwerke, nämlich Informationsengpässen und umkehrbaren Funktionen. Darauf aufbauend wird das Konzept der programmierbaren Gradienteninformation (PGI) vorgeschlagen, um die verschiedenen Änderungen zu bewältigen, die tiefe Netzwerke zur Erreichung mehrerer Ziele erfordern. PGI kann vollständige Eingabeinformationen für die Zielaufgabe zur Berechnung der Zielfunktion bereitstellen und so zuverlässige Gradienteninformationen zur Aktualisierung der Netzwerkgewichte erhalten. Darüber hinaus wird eine neue, leichtgewichtige Netzwerkarchitektur entwickelt – ein Generalized Efficient Layer Aggregation Network (GELAN), das auf der Gradientenpfadplanung basiert.

Die Verifizierungsergebnisse zeigen, dass die GELAN-Architektur durch PGI bei leichten Modellen erhebliche Vorteile erzielt. Experimente mit dem MS COCO-Datensatz zeigen, dass GELAN in Kombination mit PGI eine bessere Parameterausnutzung erreichen kann als die hochmodernen Methoden, die auf tiefer Faltung basieren und nur herkömmliche Faltungsoperatoren verwenden. Aufgrund seiner Vielseitigkeit eignet sich PGI für eine Vielzahl von Modellen, von leichten bis hin zu großen Modellen. Mit PGI ist das Modell vollständig informiert, sodass mit einem von Grund auf trainierten Modell bessere Ergebnisse erzielt werden können als mit einem hochmodernen Modell, das anhand eines großen Datensatzes vorab trainiert wurde.

Artikeladresse: https://arxiv.org/pdf/2402.13616

Code-Link: https://github.com/WongKinYiu/yolov9

Hervorragende Leistung

Laut Echtzeitziel im MS COCO-Datensatz Die Ergebnisse des Detektorvergleichs zeigen, dass die auf GELAN und PGI basierenden Zielerkennungsmethoden hinsichtlich der Zielerkennungsleistung den vorherigen, von Grund auf neu trainierten Methoden deutlich voraus sind. Die neue Methode übertrifft RT DETR, das auf einem Vortraining großer Datensätze basiert, hinsichtlich der Genauigkeit und übertrifft auch YOLO MS, das auf einem tiefen Faltungsdesign basiert, hinsichtlich der Parameternutzung. Diese Ergebnisse deuten darauf hin, dass GELAN- und PGI-Methoden potenzielle Vorteile im Bereich der Zielerkennung bieten und zu wichtigen Technologieoptionen für zukünftige Forschungen und Anwendungen werden könnten.

YOLO ist unsterblich! YOLOv9 wird veröffentlicht: Leistung und Geschwindigkeit SOTA~

Der Beitrag dieses Artikels

  1. analysiert theoretisch die bestehende tiefe neuronale Netzwerkarchitektur aus der Perspektive reversibler Funktionen und erklärt erfolgreich viele Phänomene, die in der Vergangenheit schwer zu erklären waren. Auf Grundlage dieser Analyse wurden auch PGI- und reversible Hilfszweige entworfen, die hervorragende Ergebnisse erzielten.
  2. Das entwickelte PGI löst das Problem, dass Deep Supervision nur für extrem tiefe neuronale Netzwerkarchitekturen verwendet werden kann, wodurch die neue leichte Architektur wirklich für die tägliche Arbeit anwendbar wird.
  3. Das entworfene GELAN verwendet nur traditionelle Faltungen, um eine höhere Parameternutzung zu erreichen als Designs mit tiefer Faltung, die auf modernster Technologie basieren, und weist gleichzeitig große Vorteile auf, da es leichtgewichtig, schnell und genau ist.
  4. Durch die Kombination des vorgeschlagenen PGI und GELAN übertrifft die Objekterkennungsleistung von YOLOv9 im MS COCO-Datensatz in jeder Hinsicht die Leistung vorhandener Echtzeit-Objektdetektoren bei weitem.

Methode

PGI und zugehörige Netzwerkarchitektur und -methoden

Wie in der folgenden Abbildung gezeigt, (a) Path Aggregation Network (PAN), (b) Reversible Column (RevCol), (c) Traditional Depth Überwachung und (d) Programmable Gradient Information (PGI), vorgeschlagen von YOLOv9.

YOLO ist unsterblich! YOLOv9 wird veröffentlicht: Leistung und Geschwindigkeit SOTA~

PGI besteht hauptsächlich aus drei Komponenten:

  1. Hauptzweig: die für die Inferenz verwendete Architektur;
  2. Hilfszweig: Erzeugen zuverlässiger Gradienten für die Rückwärtsübertragung vom Hauptzweig;
  3. Mehrstufige Hilfsinformationen: Steuern Sie den Hauptzweig, um programmierbare mehrstufige semantische Informationen zu lernen.

Die Architektur von GELAN

ist in der folgenden Abbildung dargestellt: (a) CSPNet, (b) ELAN und (c) GELAN, vorgeschlagen von YOLOv9. Es imitiert CSPNet und erweitert ELAN auf GELAN, das jeden Rechenblock unterstützen kann.

YOLO ist unsterblich! YOLOv9 wird veröffentlicht: Leistung und Geschwindigkeit SOTA~

Ergebnisvergleich

Vergleich mit bestehenden Techniken

Die folgende Tabelle listet den Vergleich von YOLOv9 mit anderen von Grund auf trainierten Echtzeit-Objektdetektoren auf. Insgesamt sind YOLO MS-S für leichte Modelle, YOLO MS für mittlere Modelle, YOLOv7 AF für allgemeine Modelle und YOLOv8-X für große Modelle die leistungsstärksten Methoden unter den vorhandenen Methoden. Im Vergleich zu YOLO MS leichter und mittlerer Modelle verfügt YOLOv9 über etwa 10 % weniger Parameter und 5–15 % weniger Berechnungen, weist jedoch immer noch eine Verbesserung des AP um 0,4–0,6 % auf. Im Vergleich zu YOLOv7 AF hat YOLOv9-C 42 % weniger Parameter und 21 % weniger Berechnungen, erreicht aber den gleichen AP (53 %). Im Vergleich zu YOLOv8-X verfügt YOLOv9-X über 15 % weniger Parameter, 25 % weniger Berechnungen und eine deutliche Verbesserung des AP, der um 1,7 % zugenommen hat. Die obigen Vergleichsergebnisse zeigen, dass YOLOv9 in allen Aspekten gegenüber bestehenden Methoden deutlich verbessert ist.

YOLO ist unsterblich! YOLOv9 wird veröffentlicht: Leistung und Geschwindigkeit SOTA~

Vergleich mit hochmodernen Echtzeit-Objektdetektoren

Die am Vergleich teilnehmenden Methoden verwenden alle ImageNet als Gewichte vor dem Training, einschließlich RT DETR, RTMDet und PP-YOLOE. YOLOv9, das die Scratch-Trainingsmethode verwendet, übertrifft die Leistung anderer Methoden deutlich.

YOLO ist unsterblich! YOLOv9 wird veröffentlicht: Leistung und Geschwindigkeit SOTA~

Visualisierte Ergebnisse

Feature-Map (visualisierte Ergebnisse): Ausgabe durch zufällige Anfangsgewichte von PlainNet, ResNet, CSPNet und GELAN in verschiedenen Tiefen. Nach 100 Schichten beginnt ResNet mit der Erzeugung einer Feed-Forward-Ausgabe, die ausreicht, um die Zielinformationen zu verwirren. Das hier vorgeschlagene GELAN kann auf der 150. Schicht immer noch recht vollständige Informationen behalten und verfügt auf der 200. Schicht immer noch über ausreichende Unterscheidungsfähigkeit.

YOLO ist unsterblich! YOLOv9 wird veröffentlicht: Leistung und Geschwindigkeit SOTA~

PAN-Feature-Maps (Visualisierungsergebnisse) von GELAN und YOLOv9 (GELAN + PGI): Nach einer Bias-Aufwärmrunde. GELAN wies zunächst einige Abweichungen auf, konnte sich aber nach dem Hinzufügen des reversiblen PGI-Zweigs besser auf das Zielobjekt konzentrieren.

YOLO ist unsterblich! YOLOv9 wird veröffentlicht: Leistung und Geschwindigkeit SOTA~

Visualisierungsergebnisse zufälliger Ausgangsgewichtungs-Feature-Maps für verschiedene Netzwerkarchitekturen: (a) Eingabebild, (b) PlainNet, (c) ResNet, (d) CSPNet und (e) vorgeschlagenes GELAN. Aus der Abbildung ist ersichtlich, dass in verschiedenen Architekturen der Grad der zur Berechnung des Verlusts der Zielfunktion bereitgestellten Informationen unterschiedlich ist und unsere Architektur die vollständigsten Informationen speichern und die zuverlässigsten Gradienteninformationen für die Berechnung der Zielfunktion bereitstellen kann.

YOLO ist unsterblich! YOLOv9 wird veröffentlicht: Leistung und Geschwindigkeit SOTA~

Fazit

In diesem Artikel wird vorgeschlagen, PGI zu verwenden, um das Problem von Informationsengpässen und das Problem zu lösen, dass tiefe Überwachungsmechanismen für leichte neuronale Netze nicht geeignet sind. hat GELAN entwickelt, ein effizientes und leichtes neuronales Netzwerk. In Bezug auf die Zielerkennung zeigt GELAN unter verschiedenen Rechenmodulen und Tiefeneinstellungen eine starke und stabile Leistung. Es ist in der Tat weitgehend auf Modelle skalierbar, die für eine Vielzahl von Inferenzgeräten geeignet sind. Als Reaktion auf die beiden oben genannten Probleme ermöglicht die Einführung von PGI sowohl bei leichten Modellen als auch bei tiefen Modellen erhebliche Verbesserungen der Genauigkeit. YOLOv9, das durch die Kombination von PGI und GELAN entwickelt wurde, zeigt eine starke Wettbewerbsfähigkeit. Sein hervorragendes Design ermöglicht es dem tiefen Modell, die Anzahl der Parameter um 49 % und den Berechnungsaufwand um 43 % im Vergleich zu YOLOv8 zu reduzieren, erreicht aber dennoch eine AP-Verbesserung von 0,6 % gegenüber dem MS COCO-Datensatz.

Originallink: https://mp.weixin.qq.com/s/nP4JzVwn1S-MeKAzbf97uw

Das obige ist der detaillierte Inhalt vonYOLO ist unsterblich! YOLOv9 wird veröffentlicht: Leistung und Geschwindigkeit SOTA~. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage