Table des matières
Résumé du 01
02 Contexte
Maison Périphériques technologiques IA YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

Jun 12, 2024 pm 05:49 PM
fonctionnalité convolution

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

Adresse papier : YOLOCS : Détection d'objets basée sur la compression de canal dense pour la solidification spatiale des caractéristiques (arxiv.org)

Résumé du 01

Dans le partage d'aujourd'hui, le chercheur a examiné les caractéristiques de la purification des caractéristiques et du gradient. corrélation entre les caractéristiques des canaux et les noyaux de convolution lors de la rétropropagation, en se concentrant sur la propagation vers l'avant et vers l'arrière au sein du réseau. Par conséquent, les chercheurs ont proposé une méthode de solidification de l’espace de fonctionnalités appelée compression de canal dense. Sur la base des concepts de base de la méthode, deux modules innovants pour les réseaux de base et de tête sont introduits : la compression de canal dense (DCFS) pour la solidification de l'espace de fonctionnalités et la tête découplée à compression multi-niveaux asymétrique (ADH). Lorsqu'ils sont intégrés au modèle YOLOv5, ces deux modules ont démontré des performances extraordinaires, aboutissant à un modèle amélioré connu sous le nom de YOLOCS.

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

Évalués sur l'ensemble de données MSCOCO, les AP des modèles YOLOCS grand, moyen et petit sont respectivement de 50,1%, 47,6% et 42,5%. Tout en conservant une vitesse d'inférence similaire à celle du modèle YOLOv5, les modèles YOLOCS grand, moyen et petit ont obtenu respectivement des avantages de 1,1 %, 2,3 % et 5,2 % par rapport à l'AP de YOLOv5.

02 Contexte

Ces dernières années, la technologie de détection d'objets a reçu une large attention dans le domaine de la vision par ordinateur. Parmi eux, la technologie de détection de cible basée sur l'algorithme multi-boîte à tir unique (Single Shot Multi Box Detector, appelé SSD) et la technologie de détection de cible basée sur le réseau neuronal convolutif (Convolutional Neural Networks, appelé CNN) sont les deux technologies de détection de cibles les plus couramment utilisées. Cependant, en raison de la faible précision de l'algorithme multi-trame à tir unique et de la grande complexité informatique de la technologie de détection de cible basée sur les réseaux neuronaux convolutifs, la recherche d'une technologie de détection de cible efficace et de haute précision est devenue un point chaud dans la recherche actuelle. un.

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

Dense Channel Compression (DCC) est une nouvelle technologie de compression de réseau neuronal convolutif qui permet la compression et l'accélération des paramètres de réseau en solidifiant spatialement les cartes de caractéristiques dans le réseau neuronal convolutif. Cependant, l’application de la technologie DCC dans le domaine de la détection de cibles n’a pas été entièrement étudiée. La technologie Dense Channel Compression (DCC) vise à améliorer l’efficacité des calculs en réduisant le nombre de paramètres réseau. Plus précisément, DCC réduit le nombre de paramètres de la couche convolutive en effectuant une compression de canal sur la carte des caractéristiques de sortie de la couche convolutive. Cette technique de compression peut être obtenue en supprimant les canaux redondants et inutiles, ou en utilisant des méthodes telles que la décomposition de bas rang. Bien que la technologie DCC soit très efficace dans les tâches de classification d'images, une technologie de détection de cible basée sur la compression de canal dense est proposée, nommée YOLOCS (YOLO with Dense Channel Compression). La technologie YOLOCS combine la technologie DCC avec l'algorithme YOLO (You Only Look Once) pour obtenir un traitement efficace et de haute précision de la détection de cible. Plus précisément, la technologie YOLOCS utilise la technologie DCC pour solidifier spatialement la carte des caractéristiques, obtenant ainsi un positionnement précis de la position cible en même temps, la technologie YOLOCS utilise les caractéristiques de l'algorithme multi-trame unique de l'algorithme YOLO pour obtenir une classification rapide des cibles ; calcul.

03 Nouveau cadreYoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

Compression de canal dense pour la structure de solidification spatiale des caractéristiques (DCFS)

  • Dans la méthode proposée (image (c) ci-dessus), le chercheur a non seulement résolu l'équilibre Le problème entre la largeur et la profondeur du réseau compresse également les fonctionnalités de différentes couches de profondeur via une convolution 3 × 3, réduisant de moitié le nombre de canaux avant la sortie et la fusion des fonctionnalités. Cette approche permet aux chercheurs d'affiner davantage les résultats des caractéristiques de différentes couches, améliorant ainsi la diversité et l'efficacité des caractéristiques pendant la phase de fusion.

De plus, les fonctionnalités compressées de chaque couche sont dotées de poids de noyau de convolution plus importants (3 × 3), élargissant ainsi le champ de réception des fonctionnalités de sortie. Cette approche est appelée compression de canal dense solidifié par espace de fonctionnalités. La raison d'être de la compression de canal dense pour la solidification de l'espace des fonctionnalités repose sur l'utilisation de noyaux de convolution plus grands pour faciliter la compression de canal. Cette technique présente deux avantages clés : premièrement, elle étend le champ réceptif de perception des caractéristiques lors de la propagation vers l'avant, garantissant ainsi que les détails des caractéristiques pertinents au niveau régional sont incorporés afin de minimiser la perte de caractéristiques tout au long de l'étape de compression. Deuxièmement, l’amélioration des détails des erreurs lors de la rétropropagation des erreurs permet un ajustement plus précis du poids.

Pour illustrer davantage ces deux avantages, deux canaux sont compressés à l'aide de convolutions avec deux types de noyau différents (1×1 et 3×3), comme indiqué ci-dessous :

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

Réseau de DCFS La structure est illustrée dans la figure ci-dessous. Une structure de goulot d'étranglement à trois couches est adoptée pour compresser progressivement le canal pendant le processus de propagation vers l'avant du réseau. La convolution demi-canal 3 × 3 est appliquée à toutes les branches, suivie par des couches de fonctions de normalisation par lots (BN) et d'activation. Par la suite, une couche convolutionnelle 1 × 1 est utilisée pour compresser les canaux de fonctionnalités de sortie afin qu'ils correspondent aux canaux de fonctionnalités d'entrée. Afin de résoudre le problème de la tête découplée dans le modèle YOLOX, les chercheurs ont mené une série de tests. Recherche et expérimentation. Les résultats révèlent une corrélation logique entre l'utilisation de structures de tête découplées et les fonctions de perte associées. Plus précisément, pour différentes tâches, la structure de la tête de découplage doit être ajustée en fonction de la complexité du calcul des pertes. De plus, lorsque la structure de tête découplée est appliquée à diverses tâches, la compression directe des canaux de fonctionnalités de la couche précédente (comme indiqué ci-dessous) dans les canaux de tâches peut entraîner une perte significative de fonctionnalités en raison des différences dans les dimensions de sortie finale. Ceci, à son tour, peut nuire aux performances globales du modèle.

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

  • De plus, lorsque l'on considère la méthode de compression de canal dense proposée pour la solidification de l'espace de fonctionnalités, la réduction directe du nombre de canaux dans la couche finale pour correspondre aux canaux de sortie peut entraîner une perte de fonctionnalités lors de la propagation vers l'avant, réduisant ainsi les performances du réseau. . Dans le même temps, dans le contexte de la rétropropagation, cette structure peut conduire à une rétropropagation des erreurs sous-optimale, entravant la réalisation de la stabilité du gradient. Pour relever ces défis, une nouvelle tête de découplage est introduite, appelée tête de découplage à compression asymétrique à plusieurs étages (voir la figure (b) ci-dessous). Plus précisément, les chercheurs ont approfondi le chemin du réseau dédié à la tâche de notation cible et ont utilisé 3 convolutions pour élargir le champ réceptif et le nombre de paramètres de la tâche. Dans le même temps, les caractéristiques de chaque couche convolutive sont compressées le long de la dimension du canal. Ce procédé non seulement atténue efficacement la difficulté de formation liée à la tâche de notation cible et améliore les performances du modèle, mais réduit également considérablement les paramètres et les GFLOP du module de tête découplé, améliorant ainsi considérablement la vitesse d'inférence. De plus, 1 couche convolutive est utilisée pour séparer les tâches de classification et de boîte englobante. En effet, pour les échantillons positifs appariés, les pertes associées aux deux tâches sont relativement faibles, évitant ainsi une extension excessive. Cette approche réduit considérablement les paramètres et les GFLOP dans l'en-tête de découplage, augmentant ainsi la vitesse d'inférence. 04 Visualisation de l'expérience

Expérience d'ablation sur MS-COCO val2017

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

Comparaison de YOLOCS, YOLOX et YOLOv5-r6.1[7] en termes d'AP sur MS-COCO 2017 test-dev

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Système de fusion, expliqué
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1667
14
Tutoriel PHP
1273
29
Tutoriel C#
1255
24
10 extensions de codage générateur AI dans le code vs que vous devez explorer 10 extensions de codage générateur AI dans le code vs que vous devez explorer Apr 13, 2025 am 01:14 AM

Hé là, codant ninja! Quelles tâches liées au codage avez-vous prévues pour la journée? Avant de plonger plus loin dans ce blog, je veux que vous réfléchissiez à tous vos malheurs liés au codage - les énumérez. Fait? - Let & # 8217

GPT-4O VS OpenAI O1: Le nouveau modèle Openai vaut-il le battage médiatique? GPT-4O VS OpenAI O1: Le nouveau modèle Openai vaut-il le battage médiatique? Apr 13, 2025 am 10:18 AM

Introduction Openai a publié son nouveau modèle basé sur l'architecture «aux fraises» très attendue. Ce modèle innovant, connu sous le nom d'O1, améliore les capacités de raisonnement, lui permettant de réfléchir à des problèmes Mor

PIXTRAL-12B: Mistral AI & # 039; s Modèle multimodal - Analytics Vidhya PIXTRAL-12B: Mistral AI & # 039; s Modèle multimodal - Analytics Vidhya Apr 13, 2025 am 11:20 AM

Introduction Mistral a publié son tout premier modèle multimodal, à savoir le pixtral-12b-2409. Ce modèle est construit sur les 12 milliards de paramètres de Mistral, Nemo 12b. Qu'est-ce qui distingue ce modèle? Il peut maintenant prendre les deux images et Tex

Comment ajouter une colonne dans SQL? - Analytique Vidhya Comment ajouter une colonne dans SQL? - Analytique Vidhya Apr 17, 2025 am 11:43 AM

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Comment construire des agents d'IA multimodaux à l'aide d'AGNO Framework? Comment construire des agents d'IA multimodaux à l'aide d'AGNO Framework? Apr 23, 2025 am 11:30 AM

Tout en travaillant sur une IA agentique, les développeurs se retrouvent souvent à naviguer dans les compromis entre la vitesse, la flexibilité et l'efficacité des ressources. J'ai exploré le cadre de l'IA agentique et je suis tombé sur Agno (plus tôt c'était Phi-

Au-delà du drame de lama: 4 nouvelles références pour les modèles de grande langue Au-delà du drame de lama: 4 nouvelles références pour les modèles de grande langue Apr 14, 2025 am 11:09 AM

Benchmarks en difficulté: une étude de cas de lama Début avril 2025, Meta a dévoilé sa suite de modèles Llama 4, avec des métriques de performance impressionnantes qui les ont placés favorablement contre des concurrents comme GPT-4O et Claude 3.5 Sonnet. Au centre du launc

Openai change de mise au point avec GPT-4.1, priorise le codage et la rentabilité Openai change de mise au point avec GPT-4.1, priorise le codage et la rentabilité Apr 16, 2025 am 11:37 AM

La version comprend trois modèles distincts, GPT-4.1, GPT-4.1 Mini et GPT-4.1 Nano, signalant une évolution vers des optimisations spécifiques à la tâche dans le paysage du modèle grand langage. Ces modèles ne remplacent pas immédiatement les interfaces orientées utilisateur comme

Comment les jeux de TDAH, les outils de santé et les chatbots d'IA transforment la santé mondiale Comment les jeux de TDAH, les outils de santé et les chatbots d'IA transforment la santé mondiale Apr 14, 2025 am 11:27 AM

Un jeu vidéo peut-il faciliter l'anxiété, se concentrer ou soutenir un enfant atteint de TDAH? Au fur et à mesure que les défis de la santé augmentent à l'échelle mondiale - en particulier chez les jeunes - les innovateurs se tournent vers un outil improbable: les jeux vidéo. Maintenant l'un des plus grands divertissements du monde Indus

See all articles