


Les objets inconnus peuvent également être facilement identifiés et segmentés, et l'effet peut être transféré
Il peut également segmenter de nouveaux objets qui n'ont jamais été vus auparavant.
Il s'agit d'un nouveau cadre d'apprentissage développé par DeepMind : Réseaux de découverte et de représentation d'objets (Odin en abrégé)
Les méthodes d'apprentissage autosupervisé (SSL) précédentes peuvent bien décrire l'ensemble d'une grande scène, mais il est difficile de distinguer les objets individuels.
Maintenant, la méthode Odin le fait, et le fait sans aucune supervision.
Il n'est pas facile de distinguer un seul objet dans une image. Comment fait-on ?
Principe de la méthode
Elle permet de bien distinguer divers objets dans l'image, principalement grâce à "l'auto-circulation" du cadre d'apprentissage Odin.
Odin a appris deux ensembles de réseaux qui fonctionnent ensemble, à savoir le réseau de découverte de cibles et le réseau de représentation de cibles.
Object Discovery Network prend une partie recadrée de l'image en entrée. La partie recadrée doit contenir la majeure partie de la zone de l'image, et cette partie de l'image n'a pas été améliorée sous d'autres aspects.
Ensuite, effectuez une analyse de cluster sur la carte de caractéristiques générée à partir de l'image d'entrée et segmentez chaque objet de l'image en fonction de différentes caractéristiques. La vue d'entrée du
réseau de représentation d'objets est l'image segmentée générée dans le réseau de découverte d'objets.
Une fois les vues saisies, elles sont prétraitées de manière aléatoire séparément, y compris le retournement, le flou et la conversion des couleurs au niveau du point.
De cette façon, deux ensembles de masques peuvent être obtenus. À l'exception des différences de recadrage, les autres informations sont les mêmes que le contenu de l'image sous-jacente.
Ensuite, les deux masques apprendront des fonctionnalités qui peuvent mieux représenter les objets dans l'image grâce à la perte de contraste.
Plus précisément, grâce à la détection de contraste, un réseau est formé pour identifier les caractéristiques des différents objets cibles, et il existe également de nombreuses caractéristiques « négatives » d'autres objets non pertinents.
Ensuite, maximisez la similarité du même objet cible dans différents masques, minimisez la similarité entre les différents objets cibles, puis effectuez une meilleure segmentation pour distinguer les différents objets cibles.
Dans le même temps, le réseau de découverte de cible sera mis à jour régulièrement en fonction des paramètres du réseau de représentation cible.
Le but ultime est de garantir que ces caractéristiques au niveau de l'objet restent à peu près inchangées dans différentes vues, en d'autres termes, de séparer les objets dans l'image.
Alors, quelle est l'efficacité du cadre d'apprentissage Odin ?
Capable de très bien distinguer les objets inconnus
La méthode Odin est également très puissante dans les performances d'apprentissage par transfert sans connaissances préalables lors de la segmentation de scènes.
Tout d'abord, pré-entraînez-vous sur l'ensemble de données ImageNet à l'aide de la méthode Odin, puis évaluez son effet sur l'ensemble de données COCO ainsi que sur la segmentation sémantique PASCAL et Cityscapes.
L'objet cible est déjà connu, c'est-à-dire que la méthode qui obtient des connaissances préalables est nettement meilleure que les autres méthodes qui n'obtiennent pas de connaissances préalables lors de la segmentation de scène.
Même si la méthode Odin n'obtient pas de connaissances préalables, son effet est meilleur que DetCon et ReLICv2 qui obtiennent des connaissances préalables.
De plus, la méthode Odin peut être appliquée non seulement aux modèles ResNet, mais aussi à des modèles plus complexes, comme Swim Transformer.
En termes de données, les avantages de l'apprentissage du framework Odin sont évidents. Alors, où se reflètent les avantages d'Odin dans les images visuelles ?
Comparez les images de segmentation générées à l'aide d'Odin avec celles obtenues à partir d'un réseau initialisé aléatoirement (3ème colonne), d'un réseau supervisé par ImageNet (4ème colonne).
Les colonnes 3 et 4 ne parviennent pas à décrire clairement les limites des objets, ou manquent de cohérence et de localisation des objets du monde réel, alors que les effets d'image générés par Odin sont évidemment meilleurs.
Lien de référence :
[1] https://twitter.com/DeepMind/status/1554467389290561541
[2] https://arxiv.org/abs/2203.08777
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

1. Introduction Avec la popularisation des appareils mobiles et l'amélioration de la puissance de calcul, la technologie de segmentation d'images est devenue un point chaud de la recherche. MobileSAM (MobileSegmentAnythingModel) est un modèle de segmentation d'images optimisé pour les appareils mobiles. Il vise à réduire la complexité de calcul et l'utilisation de la mémoire tout en conservant des résultats de segmentation de haute qualité, afin de fonctionner efficacement sur des appareils mobiles dotés de ressources limitées. Cet article présentera en détail les principes, les avantages et les scénarios d'application de MobileSAM. 2. Idées de conception du modèle MobileSAM. Les idées de conception du modèle MobileSAM incluent principalement les aspects suivants : Modèle léger : Afin de s'adapter aux limitations de ressources des appareils mobiles, le modèle MobileSAM adopte un modèle léger.

Avec le développement continu de la technologie de l’intelligence artificielle, la technologie de segmentation sémantique des images est devenue une direction de recherche populaire dans le domaine de l’analyse d’images. Dans la segmentation sémantique d'image, nous segmentons différentes zones d'une image et classons chaque zone pour obtenir une compréhension globale de l'image. Python est un langage de programmation bien connu. Ses puissantes capacités d'analyse et de visualisation de données en font le premier choix dans le domaine de la recherche sur les technologies d'intelligence artificielle. Cet article expliquera comment utiliser la technologie de segmentation sémantique d'images en Python. 1. Les connaissances préalables s’approfondissent

Comment implémenter la reconnaissance vocale et la synthèse vocale en C++ ? La reconnaissance vocale et la synthèse vocale constituent aujourd’hui l’une des directions de recherche les plus populaires dans le domaine de l’intelligence artificielle et jouent un rôle important dans de nombreux scénarios d’application. Cet article présentera comment utiliser C++ pour implémenter des fonctions de reconnaissance vocale et de synthèse vocale basées sur la plateforme ouverte Baidu AI, et fournira des exemples de code pertinents. 1. Reconnaissance vocale La reconnaissance vocale est une technologie qui convertit la parole humaine en texte. Elle est largement utilisée dans les assistants vocaux, les maisons intelligentes, la conduite autonome et d'autres domaines. Ce qui suit est l'implémentation de la reconnaissance vocale en utilisant C++

Golang et FFmpeg : Comment implémenter la synthèse et la segmentation audio, des exemples de code spécifiques sont requis Résumé : Cet article présentera comment utiliser les bibliothèques Golang et FFmpeg pour implémenter la synthèse et la segmentation audio. Nous utiliserons quelques exemples de code spécifiques pour aider les lecteurs à mieux comprendre. Introduction : Avec le développement continu de la technologie de traitement audio, la synthèse et la segmentation audio sont devenues des exigences fonctionnelles courantes dans la vie quotidienne et au travail. En tant que langage de programmation rapide, efficace et facile à écrire et à maintenir, Golang, associé à FFmpeg

Parfois, nous devons envoyer un gros fichier à d'autres, mais en raison des limitations du canal de transmission, telles que la limite de taille des pièces jointes aux e-mails, ou que l'état du réseau n'est pas très bon, nous devons diviser le gros fichier en petits fichiers. fichiers et envoyez-les plusieurs fois. Ensuite, fusionnez ces petits fichiers. Aujourd'hui, je vais partager comment diviser et fusionner des fichiers volumineux à l'aide de Python. Idée et mise en œuvre S'il s'agit d'un fichier texte, il peut être divisé par le nombre de lignes. Qu'il s'agisse d'un fichier texte ou d'un fichier binaire, il peut être divisé selon la taille spécifiée. À l'aide de la fonction de lecture et d'écriture de fichiers de Python, vous pouvez diviser et fusionner des fichiers, définir la taille de chaque fichier, puis lire les octets de la taille spécifiée et les écrire dans un nouveau fichier. L'extrémité réceptrice lit les petits fichiers dans l'ordre et les écrit. Les octets sont écrits dans un fichier dans l'ordre, donc

Avec le développement continu de la technologie de l’intelligence artificielle, la technologie de détection et de reconnaissance des visages est devenue de plus en plus largement utilisée dans la vie quotidienne. Dans diverses occasions, telles que les systèmes de contrôle d'accès facial, les systèmes de paiement facial, les moteurs de recherche de visage, etc., les technologies de détection et de reconnaissance faciale sont largement utilisées. En tant que langage de programmation largement utilisé, Java peut également mettre en œuvre une technologie de détection et de reconnaissance des visages. Cet article explique comment utiliser Java pour implémenter la technologie de détection et de reconnaissance des visages. 1. Technologie de détection de visage La technologie de détection de visage fait référence à la technologie qui détecte les visages dans les images ou les vidéos. en J

De nombreux amis ont besoin d'enregistrer des écrans pour le travail de bureau ou de transférer des fichiers, mais parfois le problème des fichiers trop volumineux pose beaucoup de problèmes. Ce qui suit est une solution au problème des fichiers trop volumineux, jetons-y un coup d'œil. Que faire si le fichier d'enregistrement d'écran Win10 est trop volumineux : 1. Téléchargez le logiciel Format Factory pour compresser le fichier. Adresse de téléchargement >> 2. Entrez dans la page principale et cliquez sur l'option "Vidéo-MP4". 3. Cliquez sur « Ajouter un fichier » sur la page du format de conversion et sélectionnez le fichier MP4 à compresser. 4. Cliquez sur « Configuration de sortie » sur la page pour compresser le fichier en fonction de la qualité de sortie. 5. Sélectionnez « Faible qualité et taille » dans la liste de configuration déroulante et cliquez sur « OK ». 6. Cliquez sur "OK" pour terminer l'importation des fichiers vidéo. 7. Cliquez sur "Démarrer" pour démarrer la conversion. 8. Une fois terminé, vous pouvez

Qu'est-ce qu'un système de reconnaissance des panneaux de signalisation ? Le système de reconnaissance des panneaux de signalisation du système de sécurité automobile, dont la traduction anglaise est : Traffic Sign Recognition, ou TSR en abrégé, utilise une caméra frontale combinée à un mode de reconnaissance des panneaux de signalisation courants (limitation de vitesse, stationnement, demi-tour, etc.). Cette fonction avertit le conducteur des panneaux de signalisation devant lui afin qu'il puisse y obéir. La fonction TSR améliore la sécurité en réduisant la probabilité que les conducteurs désobéissent au code de la route, comme les panneaux d'arrêt, et évitent les virages à gauche illégaux ou d'autres infractions involontaires au code de la route. Ces systèmes nécessitent des plates-formes logicielles flexibles pour améliorer les algorithmes de détection et s'adapter aux panneaux de signalisation dans différentes zones. Principe de reconnaissance des panneaux de signalisation La reconnaissance des panneaux de signalisation est également appelée TS
