Table des matières
Introduction à la méthode
Expériences
Maison Périphériques technologiques IA L'Université Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

L'Université Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Jun 06, 2024 pm 12:20 PM
ai 模型

La série de référence YOLO de systèmes de détection de cibles a une fois de plus reçu une mise à niveau majeure.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Depuis la sortie de YOLOv9 en février de cette année, le relais de la série YOLO (You Only Look Once) a été passé entre les mains de chercheurs de l'Université Tsinghua.

Le week-end dernier, la nouvelle du lancement de YOLOv10 a attiré l'attention de la communauté IA. Il est considéré comme un cadre révolutionnaire dans le domaine de la vision par ordinateur et est connu pour ses capacités de détection d'objets de bout en bout en temps réel, poursuivant l'héritage de la série YOLO en fournissant une solution puissante alliant efficacité et précision.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Adresse papier : https://arxiv.org/pdf/2405.14458

Adresse du projet : https://github.com/THU-MIG/yolov10

Après la sortie de la nouvelle version publié, de nombreuses personnes ont effectué des tests de déploiement avec de bons résultats :

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub


LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

YOLO a toujours été le principal paradigme dans le domaine de la détection de cibles en temps réel en raison de ses performances puissantes et de sa faible consommation de Puissance de calcul. Le cadre est largement utilisé dans diverses applications pratiques, notamment la conduite autonome, la surveillance et la logistique. Ses capacités de détection d'objets efficaces et précises le rendent idéal pour des tâches telles que l'identification des piétons et des véhicules en temps réel ; dans le domaine de la logistique ; il facilite la gestion des stocks et le suivi des colis, et ses capacités d'IA aident les gens à améliorer l'efficacité dans de nombreuses tâches.

Au cours des dernières années, les chercheurs ont exploré la conception architecturale de YOLO, les objectifs d'optimisation, les stratégies d'amélioration des données, etc., et ont réalisé des progrès significatifs. Cependant, le recours au post-traitement à la suppression non maximale (NMS) entrave le déploiement de bout en bout de YOLO et affecte négativement la latence d'inférence. De plus, la conception des composants individuels dans YOLO ne fait pas l’objet d’un examen complet et approfondi, ce qui entraîne une redondance informatique importante et limite les capacités du modèle.

La percée de YOLOv10 est d'améliorer encore la limite performance-efficacité de YOLO en termes de post-traitement et d'architecture de modèle.

À cette fin, l'équipe de recherche a proposé pour la première fois une double affectation cohérente (double affectation cohérente) pour la formation NMS sans YOLO , ce qui rend YOLO amélioré en termes de performances et de latence d'inférence.

L'équipe de recherche a proposé une stratégie globale de conception de modèle axée sur l'efficacité et la précision pour YOLO, optimisant de manière exhaustive chaque composant de YOLO du point de vue de l'efficacité et de la précision, réduisant considérablement les frais de calcul et améliorant les capacités du modèle.

Des expériences approfondies montrent que YOLOv10 atteint les performances et l'efficacité SOTA à différentes échelles de modèle. Par exemple, YOLOv10-S est 1,8 fois plus rapide que RT-DETR-R18 à des points d'accès similaires sur COCO, tout en réduisant considérablement le nombre de paramètres et de FLOP. Par rapport à YOLOv9-C, YOLOv10-B présente une réduction de 46 % de la latence et une réduction de 25 % des paramètres avec les mêmes performances.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Introduction à la méthode

Afin de parvenir à une conception globale de modèle axée sur l'efficacité et la précision, l'équipe de recherche a proposé des méthodes d'amélioration sous deux aspects : l'efficacité et la précision.

Pour améliorer l'efficacité, cette étude propose une tête de classification légère, un sous-échantillonnage découplé par canal spatial (canal spatial) et une conception de blocs guidée par classement pour réduire la redondance informatique évidente et obtenir une architecture plus efficace.

Afin d'améliorer la précision, l'équipe de recherche a exploré la convolution à grande échelle du noyau et a proposé un module efficace d'auto-attention partielle (PSA) pour améliorer les capacités du modèle et exploiter le potentiel d'amélioration des performances à faible coût. Sur la base de ces méthodes, l’équipe a réussi à mettre en œuvre une série de détecteurs de bout en bout en temps réel à différentes échelles, à savoir YOLOv10-N/S/M/B/L/X.

Double affectation cohérente pour une formation sans NMS

Pendant la formation, YOLO utilise généralement TAL pour attribuer plusieurs échantillons positifs à chaque instance. L'approche d'allocation un-à-plusieurs génère des signaux de supervision riches qui facilitent l'optimisation et permettent au modèle d'atteindre des performances supérieures.

Cependant, cela nécessite que YOLO s'appuie sur le post-traitement NMS, ce qui entraîne une efficacité d'inférence sous-optimale une fois déployée. Alors que des travaux de recherche antérieurs ont exploré l'appariement biunivoque pour supprimer les prédictions redondantes, ils introduisent souvent une surcharge d'inférence supplémentaire.

Contrairement à l'affectation un-à-plusieurs, la correspondance un-à-un attribue une seule prédiction à chaque vérité terrain, évitant ainsi le post-traitement NMS. Cependant, cela conduit à une supervision faible, de sorte que la précision et la vitesse de convergence ne sont pas idéales. Heureusement, cette lacune peut être corrigée par une allocation un-à-plusieurs.

La « double allocation de label » proposée dans cette étude combine les avantages des deux stratégies ci-dessus. Comme le montre la figure ci-dessous, cette recherche introduit une autre tête individuelle pour YOLO. Elle conserve la même structure et adopte les mêmes objectifs d'optimisation que la branche un-à-plusieurs d'origine, mais utilise une correspondance un-à-un pour obtenir des attributions d'étiquettes. Pendant la formation, les deux têtes sont optimisées conjointement pour fournir une supervision riche ; lors de l'inférence, YOLOv10 élimine la tête un-à-plusieurs et utilise la tête un-à-un pour faire des prédictions. Cela permet à YOLO d'être déployé de bout en bout sans encourir de coûts d'inférence supplémentaires.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Conception globale du modèle axée sur l'efficacité et la précision

En plus du post-traitement, l'architecture du modèle de YOLO pose également un énorme défi en matière de compromis efficacité-précision. Bien que les efforts de recherche antérieurs aient exploré diverses stratégies de conception, il manque encore un examen complet des différents composants de YOLO. Par conséquent, l’architecture du modèle présente une redondance informatique non négligeable et des capacités limitées.

Les composants de YOLO comprennent des tiges, des couches de sous-échantillonnage, des étapes avec des éléments de base et des têtes. L’auteur réalise principalement une conception de modèles axée sur l’efficacité pour les trois parties suivantes.

  1. Tête de classification légère
  2. Sous-échantillonnage découplé par canal spatial
  3. Conception de modules guidée par la commande

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Afin de parvenir à une conception de modèle axée sur la précision, l'équipe de recherche explore davantage d Il adopte un grand mécanisme de convolution du noyau et d'auto-attention pour améliorer les performances du modèle à un coût minimal.

Expériences

Comme le montre le tableau 1, YOLOv10 développé par l'équipe Tsinghua a atteint les performances SOTA et la latence de bout en bout à différentes échelles de modèles.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

L'étude a également mené des expériences d'ablation pour YOLOv10-S et YOLOv10-M. Les résultats expérimentaux sont présentés dans le tableau suivant :

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Comme le montre le tableau suivant, l'attribution à double étiquette a été obtenue. le meilleur compromis AP - Latence, des performances optimales sont obtenues avec une métrique de correspondance cohérente.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Comme le montre le tableau ci-dessous, chaque composant de conception, y compris la tête de classification légère, le sous-échantillonnage découplé des canaux spatiaux et la conception de modules guidée par l'ordre, contribue à réduire le nombre de paramètres, les FLOP et les délais. Il est important de noter que ces améliorations sont obtenues tout en conservant d'excellentes performances.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Analyse pour la conception de modèles axés sur la précision. Les chercheurs présentent les résultats de l’intégration progressive d’éléments de conception axés sur la précision et basés sur YOLOv10-S/M.

Comme le montre le tableau 10, l'utilisation de modules de convolution et PSA à gros cœurs a considérablement amélioré les performances de YOLOv10-S de 0,4 % AP et 1,4 % AP avec une augmentation minimale du délai de 0,03 ms et 0,15 ms respectivement.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Système de fusion, expliqué
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1666
14
Tutoriel PHP
1273
29
Tutoriel C#
1253
24
Comment utiliser la bibliothèque Chrono en C? Comment utiliser la bibliothèque Chrono en C? Apr 28, 2025 pm 10:18 PM

L'utilisation de la bibliothèque Chrono en C peut vous permettre de contrôler plus précisément les intervalles de temps et de temps. Explorons le charme de cette bibliothèque. La bibliothèque Chrono de C fait partie de la bibliothèque standard, qui fournit une façon moderne de gérer les intervalles de temps et de temps. Pour les programmeurs qui ont souffert de temps et ctime, Chrono est sans aucun doute une aubaine. Il améliore non seulement la lisibilité et la maintenabilité du code, mais offre également une précision et une flexibilité plus élevées. Commençons par les bases. La bibliothèque Chrono comprend principalement les composants clés suivants: std :: chrono :: system_clock: représente l'horloge système, utilisée pour obtenir l'heure actuelle. std :: chron

Comment comprendre les opérations DMA en C? Comment comprendre les opérations DMA en C? Apr 28, 2025 pm 10:09 PM

DMA IN C fait référence à DirectMemoryAccess, une technologie d'accès à la mémoire directe, permettant aux périphériques matériels de transmettre directement les données à la mémoire sans intervention CPU. 1) L'opération DMA dépend fortement des dispositifs matériels et des pilotes, et la méthode d'implémentation varie d'un système à l'autre. 2) L'accès direct à la mémoire peut apporter des risques de sécurité et l'exactitude et la sécurité du code doivent être assurées. 3) Le DMA peut améliorer les performances, mais une mauvaise utilisation peut entraîner une dégradation des performances du système. Grâce à la pratique et à l'apprentissage, nous pouvons maîtriser les compétences de l'utilisation du DMA et maximiser son efficacité dans des scénarios tels que la transmission de données à grande vitesse et le traitement du signal en temps réel.

Comment gérer un écran DPI élevé en C? Comment gérer un écran DPI élevé en C? Apr 28, 2025 pm 09:57 PM

La gestion de l'affichage DPI élevé en C peut être réalisée via les étapes suivantes: 1) Comprendre le DPI et la mise à l'échelle, utiliser l'API du système d'exploitation pour obtenir des informations DPI et ajuster la sortie graphique; 2) Gérer la compatibilité multiplateforme, utilisez des bibliothèques graphiques multiplateformes telles que SDL ou QT; 3) Effectuer une optimisation des performances, améliorer les performances par le cache, l'accélération matérielle et le réglage dynamique du niveau de détails; 4) Résoudre des problèmes communs, tels que le texte flou et les éléments d'interface, sont trop petits et résolvent en appliquant correctement la mise à l'échelle DPI.

Qu'est-ce que la programmation du système d'exploitation en temps réel en C? Qu'est-ce que la programmation du système d'exploitation en temps réel en C? Apr 28, 2025 pm 10:15 PM

C fonctionne bien dans la programmation du système d'exploitation en temps réel (RTOS), offrant une efficacité d'exécution efficace et une gestion du temps précise. 1) C répond aux besoins des RTO grâce à un fonctionnement direct des ressources matérielles et à une gestion efficace de la mémoire. 2) En utilisant des fonctionnalités orientées objet, C peut concevoir un système de planification de tâches flexible. 3) C prend en charge un traitement efficace d'interruption, mais l'allocation de mémoire dynamique et le traitement des exceptions doivent être évités pour assurer le temps réel. 4) La programmation des modèles et les fonctions en ligne aident à l'optimisation des performances. 5) Dans les applications pratiques, C peut être utilisé pour implémenter un système de journalisation efficace.

Étapes pour ajouter et supprimer les champs aux tables MySQL Étapes pour ajouter et supprimer les champs aux tables MySQL Apr 29, 2025 pm 04:15 PM

Dans MySQL, ajoutez des champs en utilisant alterTableTable_namEaddColumnNew_Columnvarchar (255) AfterExist_Column, supprimez les champs en utilisant alterTableTable_NamedRopColumnColumn_to_drop. Lorsque vous ajoutez des champs, vous devez spécifier un emplacement pour optimiser les performances de la requête et la structure des données; Avant de supprimer les champs, vous devez confirmer que l'opération est irréversible; La modification de la structure de la table à l'aide du DDL en ligne, des données de sauvegarde, de l'environnement de test et des périodes de faible charge est l'optimisation des performances et les meilleures pratiques.

Comment mesurer les performances du fil en C? Comment mesurer les performances du fil en C? Apr 28, 2025 pm 10:21 PM

La mesure des performances du thread en C peut utiliser les outils de synchronisation, les outils d'analyse des performances et les minuteries personnalisées dans la bibliothèque standard. 1. Utilisez la bibliothèque pour mesurer le temps d'exécution. 2. Utilisez le GPROF pour l'analyse des performances. Les étapes incluent l'ajout de l'option -pg pendant la compilation, l'exécution du programme pour générer un fichier gmon.out et la génération d'un rapport de performances. 3. Utilisez le module Callgrind de Valgrind pour effectuer une analyse plus détaillée. Les étapes incluent l'exécution du programme pour générer le fichier callgrind.out et la visualisation des résultats à l'aide de Kcachegrind. 4. Les minuteries personnalisées peuvent mesurer de manière flexible le temps d'exécution d'un segment de code spécifique. Ces méthodes aident à bien comprendre les performances du thread et à optimiser le code.

Classement d'échange quantitatif 2025 Top 10 des recommandations pour les applications de trading quantitatif de la monnaie numérique Classement d'échange quantitatif 2025 Top 10 des recommandations pour les applications de trading quantitatif de la monnaie numérique Apr 30, 2025 pm 07:24 PM

Les outils de quantification intégrés de l'échange comprennent: 1. Binance: fournit un module quantitatif à terme Binance Futures, des frais de manutention faible et prend en charge les transactions assistées par l'IA. 2. OKX (OUYI): prend en charge la gestion multi-comptes et le routage des ordres intelligents, et fournit un contrôle des risques au niveau institutionnel. Les plates-formes de stratégie quantitative indépendantes comprennent: 3. 3Commas: générateur de stratégie de glisser-déposer, adapté à l'arbitrage de la couverture multiplateforme. 4. Quadancy: Bibliothèque de stratégie d'algorithme de niveau professionnel, soutenant les seuils de risque personnalisés. 5. Pionex: stratégie prédéfinie intégrée, frais de transaction bas. Les outils de domaine vertical incluent: 6. CryptoPper: plate-forme quantitative basée sur le cloud, prenant en charge 150 indicateurs techniques. 7. Bitsgap:

Comment le site officiel Deepseek réalise-t-il l'effet de l'événement de défilement de souris pénétrant? Comment le site officiel Deepseek réalise-t-il l'effet de l'événement de défilement de souris pénétrant? Apr 30, 2025 pm 03:21 PM

Comment réaliser l'effet de la pénétration des événements de défilement de la souris? Lorsque nous naviguons sur le Web, nous rencontrons souvent des conceptions d'interaction spéciales. Par exemple, sur le site officiel Deepseek, � ...

See all articles