Les méthodes d'apprentissage profond d'aujourd'hui se concentrent sur la conception de la fonction objectif la plus appropriée afin que les résultats de prédiction du modèle soient les plus proches de la situation réelle. Dans le même temps, une architecture adaptée doit être conçue pour obtenir suffisamment d’informations pour la prédiction. Les méthodes existantes ignorent le fait que lorsque les données d’entrée subissent une extraction de caractéristiques couche par couche et une transformation spatiale, une grande quantité d’informations sera perdue. Cet article abordera des problèmes importants lors de la transmission de données via des réseaux profonds, à savoir les goulots d'étranglement de l'information et les fonctions réversibles. Sur cette base, le concept d'information de gradient programmable (PGI) est proposé pour faire face aux différents changements requis par les réseaux profonds pour atteindre des objectifs multiples. PGI peut fournir des informations d'entrée complètes pour la tâche cible afin de calculer la fonction objectif, obtenant ainsi des informations de gradient fiables pour mettre à jour les pondérations du réseau. En outre, une nouvelle architecture de réseau légère - GELAN (Generalized Efficient Layer Aggregation Network) basée sur la planification de chemins de gradient est conçue.
Les résultats de la vérification montrent que l'architecture GELAN obtient des avantages significatifs grâce au PGI sur des modèles légers. Les expériences sur l'ensemble de données MS COCO montrent que GELAN combiné avec PGI peut obtenir une meilleure utilisation des paramètres que les méthodes de pointe basées sur la convolution profonde utilisant uniquement des opérateurs de convolution traditionnels. La polyvalence du PGI le rend adapté à une large gamme de modèles, des modèles légers aux grands modèles. Avec PGI, le modèle est entièrement informé, il est donc possible d'obtenir de meilleurs résultats en utilisant un modèle formé à partir de zéro qu'un modèle de pointe pré-entraîné sur un grand ensemble de données.
Adresse de l'article : https://arxiv.org/pdf/2402.13616
Lien du code : https://github.com/WongKinYiu/yolov9
Selon la cible en temps réel sur l'ensemble de données MS COCO Les résultats de la comparaison des détecteurs montrent que les méthodes de détection de cibles basées sur GELAN et PGI sont nettement en avance sur les méthodes précédentes formées à partir de zéro en termes de performances de détection de cibles. La nouvelle méthode surpasse RT DETR, qui repose sur un pré-entraînement de grands ensembles de données, en termes de précision, et surpasse également YOLO MS basée sur une conception à convolution profonde en termes d'utilisation des paramètres. Ces résultats indiquent que les méthodes GELAN et PGI présentent des avantages potentiels dans le domaine de la détection de cibles et pourraient devenir des choix technologiques importants dans les recherches et applications futures.
Comme le montre la figure ci-dessous, (a) Réseau d'agrégation de chemins (PAN), (b) Colonne réversible (RevCol), (c) Profondeur traditionnelle supervision, et (d) informations de gradient programmables (PGI) proposées par YOLOv9.
PGI est principalement composé de trois composants :
est présentée dans la figure ci-dessous, (a) CSPNet, (b) ELAN et (c) GELAN proposé par YOLOv9. Il imite CSPNet et étend ELAN à GELAN, qui peut prendre en charge n'importe quel bloc informatique.
Le tableau ci-dessous répertorie la comparaison de YOLOv9 avec d'autres détecteurs d'objets en temps réel formés à partir de zéro. Dans l'ensemble, les méthodes les plus performantes parmi les méthodes existantes sont YOLO MS-S pour les modèles légers, YOLO MS pour les modèles moyens, YOLOv7 AF pour les modèles généraux et YOLOv8-X pour les grands modèles. Par rapport au YOLO MS des modèles légers et moyens, YOLOv9 a environ 10 % de paramètres en moins et 5 à 15 % de calculs en moins, mais présente toujours une amélioration de 0,4 à 0,6 % de l'AP. Par rapport à YOLOv7 AF, YOLOv9-C a 42 % de paramètres en moins et 21 % de calculs en moins, mais atteint le même AP (53 %). Par rapport à YOLOv8-X, YOLOv9-X a 15 % de paramètres en moins, 25 % de calculs en moins et une amélioration significative de l'AP, qui a augmenté de 1,7 %. Les résultats de comparaison ci-dessus montrent que YOLOv9 est considérablement amélioré par rapport aux méthodes existantes dans tous les aspects.
Les méthodes participant à la comparaison utilisent toutes ImageNet comme poids de pré-entraînement, notamment RT DETR, RTMDet et PP-YOLOE. YOLOv9 utilisant la méthode d'entraînement scratch dépasse clairement les performances des autres méthodes.
Carte des caractéristiques (résultats visualisés) : Sortie par poids initiaux aléatoires de PlainNet, ResNet, CSPNet et GELAN à différentes profondeurs. Après 100 couches, ResNet commence à produire une sortie anticipée suffisante pour confondre les informations cibles. Le GELAN proposé ici peut encore conserver des informations assez complètes au niveau de la 150ème couche, et possède toujours une capacité de discrimination suffisante au niveau de la 200ème couche.
Cartes de fonctionnalités PAN (résultats de visualisation) de GELAN et YOLOv9 (GELAN + PGI) : Après une série d'échauffement de biais. GELAN présentait une certaine divergence initiale, mais après avoir ajouté la branche réversible de PGI, il était mieux en mesure de se concentrer sur l'objet cible.
Résultats de visualisation de cartes de caractéristiques de sortie de poids initial aléatoires pour différentes architectures de réseau : (a) image d'entrée, (b) PlainNet, (c) ResNet, (d) CSPNet et (e) GELAN proposé. On peut voir sur la figure que dans différentes architectures, le degré d'information fourni pour calculer la perte de la fonction objectif est différent, et notre architecture peut conserver les informations les plus complètes et fournir les informations de gradient les plus fiables pour calculer la fonction objectif.
Cet article propose d'utiliser PGI pour résoudre le problème des goulots d'étranglement de l'information et le problème selon lequel les mécanismes de supervision profonde ne sont pas adaptés aux réseaux de neurones légers. a conçu GELAN, un réseau de neurones efficace et léger. En termes de détection de cible, GELAN affiche des performances solides et stables sous différents modules informatiques et paramètres de profondeur. Il est en effet largement évolutif vers des modèles adaptés à une variété de dispositifs d'inférence. En réponse aux deux problèmes ci-dessus, l’introduction du PGI permet aux modèles légers et aux modèles profonds d’obtenir des améliorations significatives en termes de précision. YOLOv9, conçu en combinant PGI et GELAN, fait preuve d'une forte compétitivité. Son excellente conception permet au modèle profond de réduire le nombre de paramètres de 49 % et la quantité de calcul de 43 % par rapport à YOLOv8, tout en atteignant une amélioration AP de 0,6 % sur l'ensemble de données MS COCO.
Lien original : https://mp.weixin.qq.com/s/nP4JzVwn1S-MeKAzbf97uw
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!