La série de référence YOLO de systèmes de détection de cibles a une fois de plus reçu une mise à niveau majeure.
Depuis la sortie de YOLOv9 en février de cette année, le relais de la série YOLO (You Only Look Once) a été passé entre les mains de chercheurs de l'Université Tsinghua.
Le week-end dernier, la nouvelle du lancement de YOLOv10 a attiré l'attention de la communauté IA. Il est considéré comme un cadre révolutionnaire dans le domaine de la vision par ordinateur et est connu pour ses capacités de détection d'objets de bout en bout en temps réel, poursuivant l'héritage de la série YOLO en fournissant une solution puissante alliant efficacité et précision.
Adresse papier : https://arxiv.org/pdf/2405.14458
Adresse du projet : https://github.com/THU-MIG/yolov10
Après la sortie de la nouvelle version publié, de nombreuses personnes ont effectué des tests de déploiement avec de bons résultats :
YOLO a toujours été le principal paradigme dans le domaine de la détection de cibles en temps réel en raison de ses performances puissantes et de sa faible consommation de Puissance de calcul. Le cadre est largement utilisé dans diverses applications pratiques, notamment la conduite autonome, la surveillance et la logistique. Ses capacités de détection d'objets efficaces et précises le rendent idéal pour des tâches telles que l'identification des piétons et des véhicules en temps réel ; dans le domaine de la logistique ; il facilite la gestion des stocks et le suivi des colis, et ses capacités d'IA aident les gens à améliorer l'efficacité dans de nombreuses tâches.
Au cours des dernières années, les chercheurs ont exploré la conception architecturale de YOLO, les objectifs d'optimisation, les stratégies d'amélioration des données, etc., et ont réalisé des progrès significatifs. Cependant, le recours au post-traitement à la suppression non maximale (NMS) entrave le déploiement de bout en bout de YOLO et affecte négativement la latence d'inférence. De plus, la conception des composants individuels dans YOLO ne fait pas l’objet d’un examen complet et approfondi, ce qui entraîne une redondance informatique importante et limite les capacités du modèle.
La percée de YOLOv10 est d'améliorer encore la limite performance-efficacité de YOLO en termes de post-traitement et d'architecture de modèle.
À cette fin, l'équipe de recherche a proposé pour la première fois une double affectation cohérente (double affectation cohérente) pour la formation NMS sans YOLO , ce qui rend YOLO amélioré en termes de performances et de latence d'inférence.
L'équipe de recherche a proposé une stratégie globale de conception de modèle axée sur l'efficacité et la précision pour YOLO, optimisant de manière exhaustive chaque composant de YOLO du point de vue de l'efficacité et de la précision, réduisant considérablement les frais de calcul et améliorant les capacités du modèle.
Des expériences approfondies montrent que YOLOv10 atteint les performances et l'efficacité SOTA à différentes échelles de modèle. Par exemple, YOLOv10-S est 1,8 fois plus rapide que RT-DETR-R18 à des points d'accès similaires sur COCO, tout en réduisant considérablement le nombre de paramètres et de FLOP. Par rapport à YOLOv9-C, YOLOv10-B présente une réduction de 46 % de la latence et une réduction de 25 % des paramètres avec les mêmes performances.
Afin de parvenir à une conception globale de modèle axée sur l'efficacité et la précision, l'équipe de recherche a proposé des méthodes d'amélioration sous deux aspects : l'efficacité et la précision.
Pour améliorer l'efficacité, cette étude propose une tête de classification légère, un sous-échantillonnage découplé par canal spatial (canal spatial) et une conception de blocs guidée par classement pour réduire la redondance informatique évidente et obtenir une architecture plus efficace.
Afin d'améliorer la précision, l'équipe de recherche a exploré la convolution à grande échelle du noyau et a proposé un module efficace d'auto-attention partielle (PSA) pour améliorer les capacités du modèle et exploiter le potentiel d'amélioration des performances à faible coût. Sur la base de ces méthodes, l’équipe a réussi à mettre en œuvre une série de détecteurs de bout en bout en temps réel à différentes échelles, à savoir YOLOv10-N/S/M/B/L/X.
Double affectation cohérente pour une formation sans NMS
Pendant la formation, YOLO utilise généralement TAL pour attribuer plusieurs échantillons positifs à chaque instance. L'approche d'allocation un-à-plusieurs génère des signaux de supervision riches qui facilitent l'optimisation et permettent au modèle d'atteindre des performances supérieures.
Cependant, cela nécessite que YOLO s'appuie sur le post-traitement NMS, ce qui entraîne une efficacité d'inférence sous-optimale une fois déployée. Alors que des travaux de recherche antérieurs ont exploré l'appariement biunivoque pour supprimer les prédictions redondantes, ils introduisent souvent une surcharge d'inférence supplémentaire.
Contrairement à l'affectation un-à-plusieurs, la correspondance un-à-un attribue une seule prédiction à chaque vérité terrain, évitant ainsi le post-traitement NMS. Cependant, cela conduit à une supervision faible, de sorte que la précision et la vitesse de convergence ne sont pas idéales. Heureusement, cette lacune peut être corrigée par une allocation un-à-plusieurs.
La « double allocation de label » proposée dans cette étude combine les avantages des deux stratégies ci-dessus. Comme le montre la figure ci-dessous, cette recherche introduit une autre tête individuelle pour YOLO. Elle conserve la même structure et adopte les mêmes objectifs d'optimisation que la branche un-à-plusieurs d'origine, mais utilise une correspondance un-à-un pour obtenir des attributions d'étiquettes. Pendant la formation, les deux têtes sont optimisées conjointement pour fournir une supervision riche ; lors de l'inférence, YOLOv10 élimine la tête un-à-plusieurs et utilise la tête un-à-un pour faire des prédictions. Cela permet à YOLO d'être déployé de bout en bout sans encourir de coûts d'inférence supplémentaires.
Conception globale du modèle axée sur l'efficacité et la précision
En plus du post-traitement, l'architecture du modèle de YOLO pose également un énorme défi en matière de compromis efficacité-précision. Bien que les efforts de recherche antérieurs aient exploré diverses stratégies de conception, il manque encore un examen complet des différents composants de YOLO. Par conséquent, l’architecture du modèle présente une redondance informatique non négligeable et des capacités limitées.
Les composants de YOLO comprennent des tiges, des couches de sous-échantillonnage, des étapes avec des éléments de base et des têtes. L’auteur réalise principalement une conception de modèles axée sur l’efficacité pour les trois parties suivantes.
Afin de parvenir à une conception de modèle axée sur la précision, l'équipe de recherche explore davantage d Il adopte un grand mécanisme de convolution du noyau et d'auto-attention pour améliorer les performances du modèle à un coût minimal.
Comme le montre le tableau 1, YOLOv10 développé par l'équipe Tsinghua a atteint les performances SOTA et la latence de bout en bout à différentes échelles de modèles.
L'étude a également mené des expériences d'ablation pour YOLOv10-S et YOLOv10-M. Les résultats expérimentaux sont présentés dans le tableau suivant :
Comme le montre le tableau suivant, l'attribution à double étiquette a été obtenue. le meilleur compromis AP - Latence, des performances optimales sont obtenues avec une métrique de correspondance cohérente.
Comme le montre le tableau ci-dessous, chaque composant de conception, y compris la tête de classification légère, le sous-échantillonnage découplé des canaux spatiaux et la conception de modules guidée par l'ordre, contribue à réduire le nombre de paramètres, les FLOP et les délais. Il est important de noter que ces améliorations sont obtenues tout en conservant d'excellentes performances.
Analyse pour la conception de modèles axés sur la précision. Les chercheurs présentent les résultats de l’intégration progressive d’éléments de conception axés sur la précision et basés sur YOLOv10-S/M.
Comme le montre le tableau 10, l'utilisation de modules de convolution et PSA à gros cœurs a considérablement amélioré les performances de YOLOv10-S de 0,4 % AP et 1,4 % AP avec une augmentation minimale du délai de 0,03 ms et 0,15 ms respectivement.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!