


L'Université Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub
La série de référence YOLO de systèmes de détection de cibles a une fois de plus reçu une mise à niveau majeure.
Depuis la sortie de YOLOv9 en février de cette année, le relais de la série YOLO (You Only Look Once) a été passé entre les mains de chercheurs de l'Université Tsinghua.
Le week-end dernier, la nouvelle du lancement de YOLOv10 a attiré l'attention de la communauté IA. Il est considéré comme un cadre révolutionnaire dans le domaine de la vision par ordinateur et est connu pour ses capacités de détection d'objets de bout en bout en temps réel, poursuivant l'héritage de la série YOLO en fournissant une solution puissante alliant efficacité et précision.
Adresse papier : https://arxiv.org/pdf/2405.14458
Adresse du projet : https://github.com/THU-MIG/yolov10
Après la sortie de la nouvelle version publié, de nombreuses personnes ont effectué des tests de déploiement avec de bons résultats :
YOLO a toujours été le principal paradigme dans le domaine de la détection de cibles en temps réel en raison de ses performances puissantes et de sa faible consommation de Puissance de calcul. Le cadre est largement utilisé dans diverses applications pratiques, notamment la conduite autonome, la surveillance et la logistique. Ses capacités de détection d'objets efficaces et précises le rendent idéal pour des tâches telles que l'identification des piétons et des véhicules en temps réel ; dans le domaine de la logistique ; il facilite la gestion des stocks et le suivi des colis, et ses capacités d'IA aident les gens à améliorer l'efficacité dans de nombreuses tâches.
Au cours des dernières années, les chercheurs ont exploré la conception architecturale de YOLO, les objectifs d'optimisation, les stratégies d'amélioration des données, etc., et ont réalisé des progrès significatifs. Cependant, le recours au post-traitement à la suppression non maximale (NMS) entrave le déploiement de bout en bout de YOLO et affecte négativement la latence d'inférence. De plus, la conception des composants individuels dans YOLO ne fait pas l’objet d’un examen complet et approfondi, ce qui entraîne une redondance informatique importante et limite les capacités du modèle.
La percée de YOLOv10 est d'améliorer encore la limite performance-efficacité de YOLO en termes de post-traitement et d'architecture de modèle.
À cette fin, l'équipe de recherche a proposé pour la première fois une double affectation cohérente (double affectation cohérente) pour la formation NMS sans YOLO , ce qui rend YOLO amélioré en termes de performances et de latence d'inférence.
L'équipe de recherche a proposé une stratégie globale de conception de modèle axée sur l'efficacité et la précision pour YOLO, optimisant de manière exhaustive chaque composant de YOLO du point de vue de l'efficacité et de la précision, réduisant considérablement les frais de calcul et améliorant les capacités du modèle.
Des expériences approfondies montrent que YOLOv10 atteint les performances et l'efficacité SOTA à différentes échelles de modèle. Par exemple, YOLOv10-S est 1,8 fois plus rapide que RT-DETR-R18 à des points d'accès similaires sur COCO, tout en réduisant considérablement le nombre de paramètres et de FLOP. Par rapport à YOLOv9-C, YOLOv10-B présente une réduction de 46 % de la latence et une réduction de 25 % des paramètres avec les mêmes performances.
Introduction à la méthode
Afin de parvenir à une conception globale de modèle axée sur l'efficacité et la précision, l'équipe de recherche a proposé des méthodes d'amélioration sous deux aspects : l'efficacité et la précision.
Pour améliorer l'efficacité, cette étude propose une tête de classification légère, un sous-échantillonnage découplé par canal spatial (canal spatial) et une conception de blocs guidée par classement pour réduire la redondance informatique évidente et obtenir une architecture plus efficace.
Afin d'améliorer la précision, l'équipe de recherche a exploré la convolution à grande échelle du noyau et a proposé un module efficace d'auto-attention partielle (PSA) pour améliorer les capacités du modèle et exploiter le potentiel d'amélioration des performances à faible coût. Sur la base de ces méthodes, l’équipe a réussi à mettre en œuvre une série de détecteurs de bout en bout en temps réel à différentes échelles, à savoir YOLOv10-N/S/M/B/L/X.
Double affectation cohérente pour une formation sans NMS
Pendant la formation, YOLO utilise généralement TAL pour attribuer plusieurs échantillons positifs à chaque instance. L'approche d'allocation un-à-plusieurs génère des signaux de supervision riches qui facilitent l'optimisation et permettent au modèle d'atteindre des performances supérieures.
Cependant, cela nécessite que YOLO s'appuie sur le post-traitement NMS, ce qui entraîne une efficacité d'inférence sous-optimale une fois déployée. Alors que des travaux de recherche antérieurs ont exploré l'appariement biunivoque pour supprimer les prédictions redondantes, ils introduisent souvent une surcharge d'inférence supplémentaire.
Contrairement à l'affectation un-à-plusieurs, la correspondance un-à-un attribue une seule prédiction à chaque vérité terrain, évitant ainsi le post-traitement NMS. Cependant, cela conduit à une supervision faible, de sorte que la précision et la vitesse de convergence ne sont pas idéales. Heureusement, cette lacune peut être corrigée par une allocation un-à-plusieurs.
La « double allocation de label » proposée dans cette étude combine les avantages des deux stratégies ci-dessus. Comme le montre la figure ci-dessous, cette recherche introduit une autre tête individuelle pour YOLO. Elle conserve la même structure et adopte les mêmes objectifs d'optimisation que la branche un-à-plusieurs d'origine, mais utilise une correspondance un-à-un pour obtenir des attributions d'étiquettes. Pendant la formation, les deux têtes sont optimisées conjointement pour fournir une supervision riche ; lors de l'inférence, YOLOv10 élimine la tête un-à-plusieurs et utilise la tête un-à-un pour faire des prédictions. Cela permet à YOLO d'être déployé de bout en bout sans encourir de coûts d'inférence supplémentaires.
Conception globale du modèle axée sur l'efficacité et la précision
En plus du post-traitement, l'architecture du modèle de YOLO pose également un énorme défi en matière de compromis efficacité-précision. Bien que les efforts de recherche antérieurs aient exploré diverses stratégies de conception, il manque encore un examen complet des différents composants de YOLO. Par conséquent, l’architecture du modèle présente une redondance informatique non négligeable et des capacités limitées.
Les composants de YOLO comprennent des tiges, des couches de sous-échantillonnage, des étapes avec des éléments de base et des têtes. L’auteur réalise principalement une conception de modèles axée sur l’efficacité pour les trois parties suivantes.
- Tête de classification légère
- Sous-échantillonnage découplé par canal spatial
- Conception de modules guidée par la commande
Afin de parvenir à une conception de modèle axée sur la précision, l'équipe de recherche explore davantage d Il adopte un grand mécanisme de convolution du noyau et d'auto-attention pour améliorer les performances du modèle à un coût minimal.
Expériences
Comme le montre le tableau 1, YOLOv10 développé par l'équipe Tsinghua a atteint les performances SOTA et la latence de bout en bout à différentes échelles de modèles.
L'étude a également mené des expériences d'ablation pour YOLOv10-S et YOLOv10-M. Les résultats expérimentaux sont présentés dans le tableau suivant :
Comme le montre le tableau suivant, l'attribution à double étiquette a été obtenue. le meilleur compromis AP - Latence, des performances optimales sont obtenues avec une métrique de correspondance cohérente.
Comme le montre le tableau ci-dessous, chaque composant de conception, y compris la tête de classification légère, le sous-échantillonnage découplé des canaux spatiaux et la conception de modules guidée par l'ordre, contribue à réduire le nombre de paramètres, les FLOP et les délais. Il est important de noter que ces améliorations sont obtenues tout en conservant d'excellentes performances.
Analyse pour la conception de modèles axés sur la précision. Les chercheurs présentent les résultats de l’intégration progressive d’éléments de conception axés sur la précision et basés sur YOLOv10-S/M.
Comme le montre le tableau 10, l'utilisation de modules de convolution et PSA à gros cœurs a considérablement amélioré les performances de YOLOv10-S de 0,4 % AP et 1,4 % AP avec une augmentation minimale du délai de 0,03 ms et 0,15 ms respectivement.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











L'utilisation de la bibliothèque Chrono en C peut vous permettre de contrôler plus précisément les intervalles de temps et de temps. Explorons le charme de cette bibliothèque. La bibliothèque Chrono de C fait partie de la bibliothèque standard, qui fournit une façon moderne de gérer les intervalles de temps et de temps. Pour les programmeurs qui ont souffert de temps et ctime, Chrono est sans aucun doute une aubaine. Il améliore non seulement la lisibilité et la maintenabilité du code, mais offre également une précision et une flexibilité plus élevées. Commençons par les bases. La bibliothèque Chrono comprend principalement les composants clés suivants: std :: chrono :: system_clock: représente l'horloge système, utilisée pour obtenir l'heure actuelle. std :: chron

DMA IN C fait référence à DirectMemoryAccess, une technologie d'accès à la mémoire directe, permettant aux périphériques matériels de transmettre directement les données à la mémoire sans intervention CPU. 1) L'opération DMA dépend fortement des dispositifs matériels et des pilotes, et la méthode d'implémentation varie d'un système à l'autre. 2) L'accès direct à la mémoire peut apporter des risques de sécurité et l'exactitude et la sécurité du code doivent être assurées. 3) Le DMA peut améliorer les performances, mais une mauvaise utilisation peut entraîner une dégradation des performances du système. Grâce à la pratique et à l'apprentissage, nous pouvons maîtriser les compétences de l'utilisation du DMA et maximiser son efficacité dans des scénarios tels que la transmission de données à grande vitesse et le traitement du signal en temps réel.

La gestion de l'affichage DPI élevé en C peut être réalisée via les étapes suivantes: 1) Comprendre le DPI et la mise à l'échelle, utiliser l'API du système d'exploitation pour obtenir des informations DPI et ajuster la sortie graphique; 2) Gérer la compatibilité multiplateforme, utilisez des bibliothèques graphiques multiplateformes telles que SDL ou QT; 3) Effectuer une optimisation des performances, améliorer les performances par le cache, l'accélération matérielle et le réglage dynamique du niveau de détails; 4) Résoudre des problèmes communs, tels que le texte flou et les éléments d'interface, sont trop petits et résolvent en appliquant correctement la mise à l'échelle DPI.

C fonctionne bien dans la programmation du système d'exploitation en temps réel (RTOS), offrant une efficacité d'exécution efficace et une gestion du temps précise. 1) C répond aux besoins des RTO grâce à un fonctionnement direct des ressources matérielles et à une gestion efficace de la mémoire. 2) En utilisant des fonctionnalités orientées objet, C peut concevoir un système de planification de tâches flexible. 3) C prend en charge un traitement efficace d'interruption, mais l'allocation de mémoire dynamique et le traitement des exceptions doivent être évités pour assurer le temps réel. 4) La programmation des modèles et les fonctions en ligne aident à l'optimisation des performances. 5) Dans les applications pratiques, C peut être utilisé pour implémenter un système de journalisation efficace.

Dans MySQL, ajoutez des champs en utilisant alterTableTable_namEaddColumnNew_Columnvarchar (255) AfterExist_Column, supprimez les champs en utilisant alterTableTable_NamedRopColumnColumn_to_drop. Lorsque vous ajoutez des champs, vous devez spécifier un emplacement pour optimiser les performances de la requête et la structure des données; Avant de supprimer les champs, vous devez confirmer que l'opération est irréversible; La modification de la structure de la table à l'aide du DDL en ligne, des données de sauvegarde, de l'environnement de test et des périodes de faible charge est l'optimisation des performances et les meilleures pratiques.

La mesure des performances du thread en C peut utiliser les outils de synchronisation, les outils d'analyse des performances et les minuteries personnalisées dans la bibliothèque standard. 1. Utilisez la bibliothèque pour mesurer le temps d'exécution. 2. Utilisez le GPROF pour l'analyse des performances. Les étapes incluent l'ajout de l'option -pg pendant la compilation, l'exécution du programme pour générer un fichier gmon.out et la génération d'un rapport de performances. 3. Utilisez le module Callgrind de Valgrind pour effectuer une analyse plus détaillée. Les étapes incluent l'exécution du programme pour générer le fichier callgrind.out et la visualisation des résultats à l'aide de Kcachegrind. 4. Les minuteries personnalisées peuvent mesurer de manière flexible le temps d'exécution d'un segment de code spécifique. Ces méthodes aident à bien comprendre les performances du thread et à optimiser le code.

Les outils de quantification intégrés de l'échange comprennent: 1. Binance: fournit un module quantitatif à terme Binance Futures, des frais de manutention faible et prend en charge les transactions assistées par l'IA. 2. OKX (OUYI): prend en charge la gestion multi-comptes et le routage des ordres intelligents, et fournit un contrôle des risques au niveau institutionnel. Les plates-formes de stratégie quantitative indépendantes comprennent: 3. 3Commas: générateur de stratégie de glisser-déposer, adapté à l'arbitrage de la couverture multiplateforme. 4. Quadancy: Bibliothèque de stratégie d'algorithme de niveau professionnel, soutenant les seuils de risque personnalisés. 5. Pionex: stratégie prédéfinie intégrée, frais de transaction bas. Les outils de domaine vertical incluent: 6. CryptoPper: plate-forme quantitative basée sur le cloud, prenant en charge 150 indicateurs techniques. 7. Bitsgap:

Comment réaliser l'effet de la pénétration des événements de défilement de la souris? Lorsque nous naviguons sur le Web, nous rencontrons souvent des conceptions d'interaction spéciales. Par exemple, sur le site officiel Deepseek, � ...
