L'Université Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub-IA-php.cn

Table des matières

Expériences

Maison

L'Université Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

王林

Jun 06, 2024 pm 12:20 PM

ai 模型

La série de référence YOLO de systèmes de détection de cibles a une fois de plus reçu une mise à niveau majeure.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Depuis la sortie de YOLOv9 en février de cette année, le relais de la série YOLO (You Only Look Once) a été passé entre les mains de chercheurs de l'Université Tsinghua.

Le week-end dernier, la nouvelle du lancement de YOLOv10 a attiré l'attention de la communauté IA. Il est considéré comme un cadre révolutionnaire dans le domaine de la vision par ordinateur et est connu pour ses capacités de détection d'objets de bout en bout en temps réel, poursuivant l'héritage de la série YOLO en fournissant une solution puissante alliant efficacité et précision.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Adresse papier : https://arxiv.org/pdf/2405.14458

Adresse du projet : https://github.com/THU-MIG/yolov10

Après la sortie de la nouvelle version publié, de nombreuses personnes ont effectué des tests de déploiement avec de bons résultats :

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

YOLO a toujours été le principal paradigme dans le domaine de la détection de cibles en temps réel en raison de ses performances puissantes et de sa faible consommation de Puissance de calcul. Le cadre est largement utilisé dans diverses applications pratiques, notamment la conduite autonome, la surveillance et la logistique. Ses capacités de détection d'objets efficaces et précises le rendent idéal pour des tâches telles que l'identification des piétons et des véhicules en temps réel ; dans le domaine de la logistique ; il facilite la gestion des stocks et le suivi des colis, et ses capacités d'IA aident les gens à améliorer l'efficacité dans de nombreuses tâches.

Au cours des dernières années, les chercheurs ont exploré la conception architecturale de YOLO, les objectifs d'optimisation, les stratégies d'amélioration des données, etc., et ont réalisé des progrès significatifs. Cependant, le recours au post-traitement à la suppression non maximale (NMS) entrave le déploiement de bout en bout de YOLO et affecte négativement la latence d'inférence. De plus, la conception des composants individuels dans YOLO ne fait pas l’objet d’un examen complet et approfondi, ce qui entraîne une redondance informatique importante et limite les capacités du modèle.

La percée de YOLOv10 est d'améliorer encore la limite performance-efficacité de YOLO en termes de post-traitement et d'architecture de modèle.

À cette fin, l'équipe de recherche a proposé pour la première fois une double affectation cohérente (double affectation cohérente) pour la formation NMS sans YOLO , ce qui rend YOLO amélioré en termes de performances et de latence d'inférence.

L'équipe de recherche a proposé une stratégie globale de conception de modèle axée sur l'efficacité et la précision pour YOLO, optimisant de manière exhaustive chaque composant de YOLO du point de vue de l'efficacité et de la précision, réduisant considérablement les frais de calcul et améliorant les capacités du modèle.

Des expériences approfondies montrent que YOLOv10 atteint les performances et l'efficacité SOTA à différentes échelles de modèle. Par exemple, YOLOv10-S est 1,8 fois plus rapide que RT-DETR-R18 à des points d'accès similaires sur COCO, tout en réduisant considérablement le nombre de paramètres et de FLOP. Par rapport à YOLOv9-C, YOLOv10-B présente une réduction de 46 % de la latence et une réduction de 25 % des paramètres avec les mêmes performances.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Introduction à la méthode

Afin de parvenir à une conception globale de modèle axée sur l'efficacité et la précision, l'équipe de recherche a proposé des méthodes d'amélioration sous deux aspects : l'efficacité et la précision.

Pour améliorer l'efficacité, cette étude propose une tête de classification légère, un sous-échantillonnage découplé par canal spatial (canal spatial) et une conception de blocs guidée par classement pour réduire la redondance informatique évidente et obtenir une architecture plus efficace.

Afin d'améliorer la précision, l'équipe de recherche a exploré la convolution à grande échelle du noyau et a proposé un module efficace d'auto-attention partielle (PSA) pour améliorer les capacités du modèle et exploiter le potentiel d'amélioration des performances à faible coût. Sur la base de ces méthodes, l’équipe a réussi à mettre en œuvre une série de détecteurs de bout en bout en temps réel à différentes échelles, à savoir YOLOv10-N/S/M/B/L/X.

Double affectation cohérente pour une formation sans NMS

Pendant la formation, YOLO utilise généralement TAL pour attribuer plusieurs échantillons positifs à chaque instance. L'approche d'allocation un-à-plusieurs génère des signaux de supervision riches qui facilitent l'optimisation et permettent au modèle d'atteindre des performances supérieures.

Cependant, cela nécessite que YOLO s'appuie sur le post-traitement NMS, ce qui entraîne une efficacité d'inférence sous-optimale une fois déployée. Alors que des travaux de recherche antérieurs ont exploré l'appariement biunivoque pour supprimer les prédictions redondantes, ils introduisent souvent une surcharge d'inférence supplémentaire.

Contrairement à l'affectation un-à-plusieurs, la correspondance un-à-un attribue une seule prédiction à chaque vérité terrain, évitant ainsi le post-traitement NMS. Cependant, cela conduit à une supervision faible, de sorte que la précision et la vitesse de convergence ne sont pas idéales. Heureusement, cette lacune peut être corrigée par une allocation un-à-plusieurs.

La « double allocation de label » proposée dans cette étude combine les avantages des deux stratégies ci-dessus. Comme le montre la figure ci-dessous, cette recherche introduit une autre tête individuelle pour YOLO. Elle conserve la même structure et adopte les mêmes objectifs d'optimisation que la branche un-à-plusieurs d'origine, mais utilise une correspondance un-à-un pour obtenir des attributions d'étiquettes. Pendant la formation, les deux têtes sont optimisées conjointement pour fournir une supervision riche ; lors de l'inférence, YOLOv10 élimine la tête un-à-plusieurs et utilise la tête un-à-un pour faire des prédictions. Cela permet à YOLO d'être déployé de bout en bout sans encourir de coûts d'inférence supplémentaires.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Conception globale du modèle axée sur l'efficacité et la précision

En plus du post-traitement, l'architecture du modèle de YOLO pose également un énorme défi en matière de compromis efficacité-précision. Bien que les efforts de recherche antérieurs aient exploré diverses stratégies de conception, il manque encore un examen complet des différents composants de YOLO. Par conséquent, l’architecture du modèle présente une redondance informatique non négligeable et des capacités limitées.

Les composants de YOLO comprennent des tiges, des couches de sous-échantillonnage, des étapes avec des éléments de base et des têtes. L’auteur réalise principalement une conception de modèles axée sur l’efficacité pour les trois parties suivantes.

Tête de classification légère
Sous-échantillonnage découplé par canal spatial
Conception de modules guidée par la commande

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Afin de parvenir à une conception de modèle axée sur la précision, l'équipe de recherche explore davantage d Il adopte un grand mécanisme de convolution du noyau et d'auto-attention pour améliorer les performances du modèle à un coût minimal.

Expériences

Comme le montre le tableau 1, YOLOv10 développé par l'équipe Tsinghua a atteint les performances SOTA et la latence de bout en bout à différentes échelles de modèles.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

L'étude a également mené des expériences d'ablation pour YOLOv10-S et YOLOv10-M. Les résultats expérimentaux sont présentés dans le tableau suivant :

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Comme le montre le tableau suivant, l'attribution à double étiquette a été obtenue. le meilleur compromis AP - Latence, des performances optimales sont obtenues avec une métrique de correspondance cohérente.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Comme le montre le tableau ci-dessous, chaque composant de conception, y compris la tête de classification légère, le sous-échantillonnage découplé des canaux spatiaux et la conception de modules guidée par l'ordre, contribue à réduire le nombre de paramètres, les FLOP et les délais. Il est important de noter que ces améliorations sont obtenues tout en conservant d'excellentes performances.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Analyse pour la conception de modèles axés sur la précision. Les chercheurs présentent les résultats de l’intégration progressive d’éléments de conception axés sur la précision et basés sur YOLOv10-S/M.

Comme le montre le tableau 10, l'utilisation de modules de convolution et PSA à gros cœurs a considérablement amélioré les performances de YOLOv10-S de 0,4 % AP et 1,4 % AP avec une augmentation minimale du délai de 0,03 ms et 0,15 ms respectivement.

LUniversité Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

4 Il y a quelques semaines By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semaines By DDD

Nordhold: Système de fusion, expliqué

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1671

Tutoriel CakePHP

1428

Tutoriel Laravel

1331

Tutoriel PHP

1276

Tutoriel C#

1256

Afficher plus

Related knowledge

Étapes pour ajouter et supprimer les champs aux tables MySQL Apr 29, 2025 pm 04:15 PM

Dans MySQL, ajoutez des champs en utilisant alterTableTable_namEaddColumnNew_Columnvarchar (255) AfterExist_Column, supprimez les champs en utilisant alterTableTable_NamedRopColumnColumn_to_drop. Lorsque vous ajoutez des champs, vous devez spécifier un emplacement pour optimiser les performances de la requête et la structure des données; Avant de supprimer les champs, vous devez confirmer que l'opération est irréversible; La modification de la structure de la table à l'aide du DDL en ligne, des données de sauvegarde, de l'environnement de test et des périodes de faible charge est l'optimisation des performances et les meilleures pratiques.

Top 10 des plates-formes de trading de devises numériques: 10 premiers échanges de devises numériques sûrs et fiables Apr 30, 2025 pm 04:30 PM

Les 10 principales plates-formes de trading de devises virtuelles numériques sont: 1. Binance, 2. Okx, 3. Coinbase, 4. Kraken, 5. Huobi Global, 6. Bitfinex, 7. Kucoin, 8. Gemini, 9. Bitstamp, 10. Bittrex. Ces plateformes offrent toutes une haute sécurité et une variété d'options de trading, adaptées à différents besoins des utilisateurs.

Classement d'échange quantitatif 2025 Top 10 des recommandations pour les applications de trading quantitatif de la monnaie numérique Apr 30, 2025 pm 07:24 PM

Les outils de quantification intégrés de l'échange comprennent: 1. Binance: fournit un module quantitatif à terme Binance Futures, des frais de manutention faible et prend en charge les transactions assistées par l'IA. 2. OKX (OUYI): prend en charge la gestion multi-comptes et le routage des ordres intelligents, et fournit un contrôle des risques au niveau institutionnel. Les plates-formes de stratégie quantitative indépendantes comprennent: 3. 3Commas: générateur de stratégie de glisser-déposer, adapté à l'arbitrage de la couverture multiplateforme. 4. Quadancy: Bibliothèque de stratégie d'algorithme de niveau professionnel, soutenant les seuils de risque personnalisés. 5. Pionex: stratégie prédéfinie intégrée, frais de transaction bas. Les outils de domaine vertical incluent: 6. CryptoPper: plate-forme quantitative basée sur le cloud, prenant en charge 150 indicateurs techniques. 7. Bitsgap:

Comment utiliser les fonctions MySQL pour le traitement et le calcul des données Apr 29, 2025 pm 04:21 PM

Les fonctions MySQL peuvent être utilisées pour le traitement et le calcul des données. 1. L'utilisation de base comprend le traitement des chaînes, le calcul de la date et les opérations mathématiques. 2. L'utilisation avancée consiste à combiner plusieurs fonctions pour implémenter des opérations complexes. 3. L'optimisation des performances nécessite d'éviter l'utilisation de fonctions dans la clause où et d'utiliser des tables groupby et temporaires.

Comment le site officiel Deepseek réalise-t-il l'effet de l'événement de défilement de souris pénétrant? Apr 30, 2025 pm 03:21 PM

Comment réaliser l'effet de la pénétration des événements de défilement de la souris? Lorsque nous naviguons sur le Web, nous rencontrons souvent des conceptions d'interaction spéciales. Par exemple, sur le site officiel Deepseek, � ...

Un moyen efficace d'inserter les données dans MySQL Apr 29, 2025 pm 04:18 PM

Méthodes efficaces pour les données d'insertion par lots dans MySQL Incluent: 1. Utilisation d'inserto ... Syntaxe des valeurs, 2. Utilisation de la commande chargedatainfile, 3. Utilisation du traitement des transactions, 4. Ajuster la taille du lot, 5. Désactiver l'indexation, 6. Utilisation de l'insertion ou de l'insert ... onduplicatekeyupdate, ces méthodes peuvent améliorer considérablement l'efficacité du fonctionnement de la base de données.

Easeprotocol.com implémente directement la norme du message ISO 20022 en tant que contrat intelligent blockchain Apr 30, 2025 pm 05:06 PM

Ce développement révolutionnaire permettra aux institutions financières de tirer parti de la norme ISO20022 globalement reconnue pour automatiser les processus bancaires à travers différents écosystèmes de blockchain. Le protocole d'assistance est une plate-forme de blockchain au niveau de l'entreprise conçue pour promouvoir une adoption généralisée grâce à des méthodes faciles à utiliser. Il a annoncé aujourd'hui qu'il avait réussi à intégrer la norme de messagerie ISO20022 et l'a incorporé directement dans les contrats intelligents de la blockchain. Cette évolution permettra aux institutions financières d'automatiser facilement les processus bancaires dans différents écosystèmes de blockchain en utilisant la norme ISO20022 reconnue globalement, qui remplace le système de messagerie rapide. Ces fonctionnalités seront bientôt essayées sur "Easetestnet". Easeprotocolarchitecteddou

Comment analyser le plan d'exécution de la requête MySQL Apr 29, 2025 pm 04:12 PM

Utilisez la commande Expliquez pour analyser le plan d'exécution des requêtes MySQL. 1. La commande EXPLIQUE affiche le plan d'exécution de la requête pour aider à trouver des goulots d'étranglement de performances. 2. Le plan d'exécution comprend des champs tels que id, select_type, table, type, possible_keys, key, key_len, ref, lignes et extra. 3. Selon le plan d'exécution, vous pouvez optimiser les requêtes en ajoutant des index, en évitant les analyses de table complètes, en optimisant les opérations de jointure et en utilisant des index de superposition.

See all articles