Die Benchmark-Zielerkennungssysteme der YOLO-Serie haben erneut ein großes Upgrade erhalten.
Seit der Veröffentlichung von YOLOv9 im Februar dieses Jahres wurde der Staffelstab der YOLO-Reihe (You Only Look Once) in die Hände von Forschern der Tsinghua-Universität übergeben.
Letztes Wochenende erregte die Nachricht vom Start von YOLOv10 die Aufmerksamkeit der KI-Community. Es gilt als bahnbrechendes Framework im Bereich Computer Vision und ist für seine End-to-End-Objekterkennungsfunktionen in Echtzeit bekannt. Es führt das Erbe der YOLO-Serie fort und bietet eine leistungsstarke Lösung, die Effizienz und Genauigkeit vereint.
Papieradresse: https://arxiv.org/pdf/2405.14458
Projektadresse: https://github.com/THU-MIG/yolov10
Nach der neuen Version ist veröffentlicht, Viele Leute haben Bereitstellungstests mit guten Ergebnissen durchgeführt:
YOLO war aufgrund seiner leistungsstarken Leistung und seines geringen Verbrauchs schon immer das wichtigste Paradigma im Bereich der Echtzeit-Zielerkennung Rechenleistung. Das Framework wird häufig in einer Vielzahl realer Anwendungen eingesetzt, darunter autonomes Fahren, Überwachung und Logistik. Seine effizienten und genauen Objekterkennungsfunktionen machen es ideal für Aufgaben wie die Identifizierung von Fußgängern und Fahrzeugen in Echtzeit in der Logistik, es hilft bei der Bestandsverwaltung und Paketverfolgung und seine KI-Fähigkeiten helfen Menschen, die Effizienz bei vielen Aufgaben zu verbessern.
In den letzten Jahren haben Forscher das Architekturdesign, Optimierungsziele, Datenverbesserungsstrategien usw. von YOLO untersucht und erhebliche Fortschritte erzielt. Allerdings behindert die Abhängigkeit der Nachbearbeitung von nicht-maximaler Unterdrückung (NMS) die End-to-End-Bereitstellung von YOLO und wirkt sich negativ auf die Inferenzlatenz aus. Darüber hinaus mangelt es dem Design einzelner Komponenten in YOLO an einer umfassenden und gründlichen Prüfung, was zu erheblicher Rechenredundanz führt und die Fähigkeiten des Modells einschränkt.
Der Durchbruch von YOLOv10 besteht darin, die Leistungs-Effizienz-Grenze von YOLO in Bezug auf Nachbearbeitung und Modellarchitektur weiter zu verbessern.
Zu diesem Zweck schlug das Forschungsteam erstmals eine konsistente Doppelzuweisung (konsistente Doppelzuweisung) für YOLO-freies NMS-Training vor , wodurch YOLO hinsichtlich Leistung und Inferenzlatenz verbessert wird.
Das Forschungsteam schlug eine allgemeine, auf Effizienz und Genauigkeit basierende Modellentwurfsstrategie für YOLO vor, die jede Komponente von YOLO im Hinblick auf Effizienz und Genauigkeit vollständig optimiert, den Rechenaufwand erheblich reduziert und die Modellfunktionen verbessert.
Umfangreiche Experimente zeigen, dass YOLOv10 SOTA-Leistung und -Effizienz in verschiedenen Modellmaßstäben erreicht. Beispielsweise ist YOLOv10-S bei ähnlichen APs auf COCO 1,8-mal schneller als RT-DETR-R18 und reduziert gleichzeitig die Anzahl der Parameter und FLOPs erheblich. Im Vergleich zu YOLOv9-C hat YOLOv10-B 46 % weniger Latenz und 25 % weniger Parameter bei gleicher Leistung.
Um ein auf Effizienz und Genauigkeit basierendes Modelldesign zu erreichen, schlug das Forschungsteam Verbesserungsmethoden unter zwei Gesichtspunkten vor: Effizienz und Genauigkeit.
Um die Effizienz zu verbessern, schlägt diese Studie einen leichten Klassifizierungskopf, räumliches Kanal-entkoppeltes Downsampling und rankengesteuertes Blockdesign vor, um offensichtliche Rechenredundanz zu reduzieren und eine effizientere Architektur zu erreichen.
Um die Genauigkeit zu verbessern, untersuchte das Forschungsteam die große Kernelfaltung und schlug ein effektives PSA-Modul (Partial Self-Attention) vor, um die Modellfähigkeiten zu verbessern und das Potenzial für Leistungsverbesserungen bei geringen Kosten auszuschöpfen. Basierend auf diesen Methoden implementierte das Team erfolgreich eine Reihe von Echtzeit-End-to-End-Detektoren unterschiedlicher Größenordnung, nämlich YOLOv10-N/S/M/B/L/X.
Konsistente Doppelzuweisung für NMS-freies Training
Während des Trainings verwendet YOLO normalerweise TAL, um jeder Instanz mehrere positive Proben zuzuweisen. Der Eins-zu-viele-Zuteilungsansatz generiert umfangreiche Überwachungssignale, die die Optimierung erleichtern und es dem Modell ermöglichen, eine überlegene Leistung zu erzielen.
Dafür muss sich YOLO jedoch auf die NMS-Nachverarbeitung verlassen, was bei der Bereitstellung zu einer suboptimalen Inferenzeffizienz führt. Während frühere Forschungsarbeiten Eins-zu-eins-Matching zur Unterdrückung redundanter Vorhersagen untersucht haben, führen sie häufig zu einem zusätzlichen Inferenzaufwand.
Im Gegensatz zur Eins-zu-viele-Zuweisung weist der Eins-zu-eins-Abgleich jeder Grundwahrheit nur eine Vorhersage zu und vermeidet so eine NMS-Nachbearbeitung. Dies führt jedoch zu einer schwachen Überwachung, sodass Genauigkeit und Konvergenzgeschwindigkeit nicht optimal sind. Glücklicherweise kann dieser Mangel durch eine Eins-zu-viele-Zuteilung behoben werden.
Die in dieser Studie vorgeschlagene „Dual-Label-Zuteilung“ vereint die Vorteile der beiden oben genannten Strategien. Wie in der folgenden Abbildung dargestellt, stellt diese Forschung einen weiteren Eins-zu-Eins-Kopf für YOLO vor. Er behält die gleiche Struktur und verfolgt die gleichen Optimierungsziele wie der ursprüngliche Eins-zu-viele-Zweig, verwendet jedoch einen Eins-zu-Eins-Abgleich, um Etikettenzuweisungen zu erhalten. Während des Trainings werden die beiden Köpfe gemeinsam optimiert, um während der Inferenz eine umfassende Überwachung zu ermöglichen. YOLOv10 verwirft den Eins-zu-Viele-Kopf und verwendet den Eins-zu-Eins-Kopf, um Vorhersagen zu treffen. Dadurch kann YOLO durchgängig bereitgestellt werden, ohne dass zusätzliche Inferenzkosten anfallen.
Gesamteffizienz-Genauigkeits-gesteuertes Modelldesign
Zusätzlich zur Nachbearbeitung stellt die Modellarchitektur von YOLO auch eine große Herausforderung für den Kompromiss zwischen Effizienz und Genauigkeit dar. Obwohl frühere Forschungsanstrengungen verschiedene Designstrategien untersucht haben, fehlt noch eine umfassende Untersuchung der verschiedenen Komponenten in YOLO. Daher weist die Modellarchitektur eine nicht zu vernachlässigende Rechenredundanz und begrenzte Fähigkeiten auf.
Zu den Komponenten in YOLO gehören Stiele, Downsampling-Ebenen, Stufen mit Grundbausteinen und Köpfe. Der Autor führt hauptsächlich den effizienzorientierten Modellentwurf für die folgenden drei Teile durch.
Um ein genauigkeitsgesteuertes Modelldesign zu erreichen, hat das Forschungsteam weitergearbeitet erforscht Es nimmt an Großer Kernel-Faltungs- und Selbstaufmerksamkeitsmechanismus zur Verbesserung der Modellleistung bei minimalen Kosten.
Wie in Tabelle 1 gezeigt, erreichte YOLOv10, das vom Tsinghua-Team entwickelt wurde, SOTA-Leistung und End-to-End-Latenz auf verschiedenen Modellmaßstäben.
Die Studie führte auch Ablationsexperimente für YOLOv10-S und YOLOv10-M durch. Die experimentellen Ergebnisse sind in der folgenden Tabelle aufgeführt:
Wie in der folgenden Tabelle gezeigt, wurde eine doppelte Etikettenzuordnung erreicht Durch den besten Kompromiss zwischen AP und Latenz wird eine optimale Leistung mit einer konsistenten Matching-Metrik erreicht.
Wie in der folgenden Tabelle gezeigt, trägt jede Designkomponente, einschließlich leichtem Klassifizierungskopf, räumlicher Kanalentkopplung und ordnungsgesteuertem Moduldesign, zur Reduzierung der Anzahl von Parametern, FLOPs und Verzögerungen bei. Wichtig ist, dass diese Verbesserungen unter Beibehaltung einer hervorragenden Leistung erzielt werden.
Analyse für genauigkeitsgesteuertes Modelldesign. Die Forscher präsentieren Ergebnisse der schrittweisen Integration genauigkeitsgesteuerter Designelemente auf Basis von YOLOv10-S/M.
Wie in Tabelle 10 gezeigt, verbesserte die Verwendung von Faltungs- und PSA-Modulen mit großem Kern die Leistung von YOLOv10-S deutlich um 0,4 % AP und 1,4 % AP bei einer minimalen Verzögerungserhöhung von 0,03 ms bzw. 0,15 ms.
Das obige ist der detaillierte Inhalt vonDie Tsinghua-Universität übernahm und YOLOv10 kam heraus: Die Leistung wurde erheblich verbessert und es stand auf der GitHub-Hotlist. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!