Table des matières
Principe de la méthode
Capable de très bien distinguer les objets inconnus
Maison Périphériques technologiques IA Les objets inconnus peuvent également être facilement identifiés et segmentés, et l'effet peut être transféré

Les objets inconnus peuvent également être facilement identifiés et segmentés, et l'effet peut être transféré

Apr 12, 2023 am 11:31 AM
识别 分割 可迁移

Il peut également segmenter de nouveaux objets qui n'ont jamais été vus auparavant.

Il s'agit d'un nouveau cadre d'apprentissage développé par DeepMind : Réseaux de découverte et de représentation d'objets (Odin en abrégé)

Les objets inconnus peuvent également être facilement identifiés et segmentés, et leffet peut être transféré

Les méthodes d'apprentissage autosupervisé (SSL) précédentes peuvent bien décrire l'ensemble d'une grande scène, mais il est difficile de distinguer les objets individuels.

Maintenant, la méthode Odin le fait, et le fait sans aucune supervision.

Il n'est pas facile de distinguer un seul objet dans une image. Comment fait-on ?

Principe de la méthode

Elle permet de bien distinguer divers objets dans l'image, principalement grâce à "l'auto-circulation" du cadre d'apprentissage Odin.

Odin a appris deux ensembles de réseaux qui fonctionnent ensemble, à savoir le réseau de découverte de cibles et le réseau de représentation de cibles.

Object Discovery Network prend une partie recadrée de l'image en entrée. La partie recadrée doit contenir la majeure partie de la zone de l'image, et cette partie de l'image n'a pas été améliorée sous d'autres aspects.

Ensuite, effectuez une analyse de cluster sur la carte de caractéristiques générée à partir de l'image d'entrée et segmentez chaque objet de l'image en fonction de différentes caractéristiques. La vue d'entrée du

Les objets inconnus peuvent également être facilement identifiés et segmentés, et leffet peut être transféré

réseau de représentation d'objets est l'image segmentée générée dans le réseau de découverte d'objets.

Une fois les vues saisies, elles sont prétraitées de manière aléatoire séparément, y compris le retournement, le flou et la conversion des couleurs au niveau du point.

De cette façon, deux ensembles de masques peuvent être obtenus. À l'exception des différences de recadrage, les autres informations sont les mêmes que le contenu de l'image sous-jacente.

Ensuite, les deux masques apprendront des fonctionnalités qui peuvent mieux représenter les objets dans l'image grâce à la perte de contraste.

Plus précisément, grâce à la détection de contraste, un réseau est formé pour identifier les caractéristiques des différents objets cibles, et il existe également de nombreuses caractéristiques « négatives » d'autres objets non pertinents.

Ensuite, maximisez la similarité du même objet cible dans différents masques, minimisez la similarité entre les différents objets cibles, puis effectuez une meilleure segmentation pour distinguer les différents objets cibles.

Les objets inconnus peuvent également être facilement identifiés et segmentés, et leffet peut être transféré

Dans le même temps, le réseau de découverte de cible sera mis à jour régulièrement en fonction des paramètres du réseau de représentation cible.

Le but ultime est de garantir que ces caractéristiques au niveau de l'objet restent à peu près inchangées dans différentes vues, en d'autres termes, de séparer les objets dans l'image.

Alors, quelle est l'efficacité du cadre d'apprentissage Odin ?

Capable de très bien distinguer les objets inconnus

La méthode Odin est également très puissante dans les performances d'apprentissage par transfert sans connaissances préalables lors de la segmentation de scènes.

Tout d'abord, pré-entraînez-vous sur l'ensemble de données ImageNet à l'aide de la méthode Odin, puis évaluez son effet sur l'ensemble de données COCO ainsi que sur la segmentation sémantique PASCAL et Cityscapes.

L'objet cible est déjà connu, c'est-à-dire que la méthode qui obtient des connaissances préalables est nettement meilleure que les autres méthodes qui n'obtiennent pas de connaissances préalables lors de la segmentation de scène.

Même si la méthode Odin n'obtient pas de connaissances préalables, son effet est meilleur que DetCon et ReLICv2 qui obtiennent des connaissances préalables.

Les objets inconnus peuvent également être facilement identifiés et segmentés, et leffet peut être transféré

Les objets inconnus peuvent également être facilement identifiés et segmentés, et leffet peut être transféré

De plus, la méthode Odin peut être appliquée non seulement aux modèles ResNet, mais aussi à des modèles plus complexes, comme Swim Transformer.

Les objets inconnus peuvent également être facilement identifiés et segmentés, et leffet peut être transféré

En termes de données, les avantages de l'apprentissage du framework Odin sont évidents. Alors, où se reflètent les avantages d'Odin dans les images visuelles ?

Comparez les images de segmentation générées à l'aide d'Odin avec celles obtenues à partir d'un réseau initialisé aléatoirement (3ème colonne), d'un réseau supervisé par ImageNet (4ème colonne).

Les colonnes 3 et 4 ne parviennent pas à décrire clairement les limites des objets, ou manquent de cohérence et de localisation des objets du monde réel, alors que les effets d'image générés par Odin sont évidemment meilleurs.

Les objets inconnus peuvent également être facilement identifiés et segmentés, et leffet peut être transféré

Lien de référence :

[1] https://twitter.com/DeepMind/status/1554467389290561541

[2] ​https://arxiv.org/abs/2203.08777

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

MobileSAM : un modèle de segmentation d'images léger et performant pour les appareils mobiles MobileSAM : un modèle de segmentation d'images léger et performant pour les appareils mobiles Jan 05, 2024 pm 02:50 PM

1. Introduction Avec la popularisation des appareils mobiles et l'amélioration de la puissance de calcul, la technologie de segmentation d'images est devenue un point chaud de la recherche. MobileSAM (MobileSegmentAnythingModel) est un modèle de segmentation d'images optimisé pour les appareils mobiles. Il vise à réduire la complexité de calcul et l'utilisation de la mémoire tout en conservant des résultats de segmentation de haute qualité, afin de fonctionner efficacement sur des appareils mobiles dotés de ressources limitées. Cet article présentera en détail les principes, les avantages et les scénarios d'application de MobileSAM. 2. Idées de conception du modèle MobileSAM. Les idées de conception du modèle MobileSAM incluent principalement les aspects suivants : Modèle léger : Afin de s'adapter aux limitations de ressources des appareils mobiles, le modèle MobileSAM adopte un modèle léger.

Comment utiliser la technologie de segmentation sémantique d'images en Python ? Comment utiliser la technologie de segmentation sémantique d'images en Python ? Jun 06, 2023 am 08:03 AM

Avec le développement continu de la technologie de l’intelligence artificielle, la technologie de segmentation sémantique des images est devenue une direction de recherche populaire dans le domaine de l’analyse d’images. Dans la segmentation sémantique d'image, nous segmentons différentes zones d'une image et classons chaque zone pour obtenir une compréhension globale de l'image. Python est un langage de programmation bien connu. Ses puissantes capacités d'analyse et de visualisation de données en font le premier choix dans le domaine de la recherche sur les technologies d'intelligence artificielle. Cet article expliquera comment utiliser la technologie de segmentation sémantique d'images en Python. 1. Les connaissances préalables s’approfondissent

Comment implémenter la reconnaissance vocale et la synthèse vocale en C++ ? Comment implémenter la reconnaissance vocale et la synthèse vocale en C++ ? Aug 26, 2023 pm 02:49 PM

Comment implémenter la reconnaissance vocale et la synthèse vocale en C++ ? La reconnaissance vocale et la synthèse vocale constituent aujourd’hui l’une des directions de recherche les plus populaires dans le domaine de l’intelligence artificielle et jouent un rôle important dans de nombreux scénarios d’application. Cet article présentera comment utiliser C++ pour implémenter des fonctions de reconnaissance vocale et de synthèse vocale basées sur la plateforme ouverte Baidu AI, et fournira des exemples de code pertinents. 1. Reconnaissance vocale La reconnaissance vocale est une technologie qui convertit la parole humaine en texte. Elle est largement utilisée dans les assistants vocaux, les maisons intelligentes, la conduite autonome et d'autres domaines. Ce qui suit est l'implémentation de la reconnaissance vocale en utilisant C++

Golang et FFmpeg : Comment implémenter la synthèse et la segmentation audio Golang et FFmpeg : Comment implémenter la synthèse et la segmentation audio Sep 27, 2023 pm 10:52 PM

Golang et FFmpeg : Comment implémenter la synthèse et la segmentation audio, des exemples de code spécifiques sont requis Résumé : Cet article présentera comment utiliser les bibliothèques Golang et FFmpeg pour implémenter la synthèse et la segmentation audio. Nous utiliserons quelques exemples de code spécifiques pour aider les lecteurs à mieux comprendre. Introduction : Avec le développement continu de la technologie de traitement audio, la synthèse et la segmentation audio sont devenues des exigences fonctionnelles courantes dans la vie quotidienne et au travail. En tant que langage de programmation rapide, efficace et facile à écrire et à maintenir, Golang, associé à FFmpeg

Tutoriel Python : Comment diviser et fusionner des fichiers volumineux à l'aide de Python ? Tutoriel Python : Comment diviser et fusionner des fichiers volumineux à l'aide de Python ? Apr 22, 2023 am 11:43 AM

Parfois, nous devons envoyer un gros fichier à d'autres, mais en raison des limitations du canal de transmission, telles que la limite de taille des pièces jointes aux e-mails, ou que l'état du réseau n'est pas très bon, nous devons diviser le gros fichier en petits fichiers. fichiers et envoyez-les plusieurs fois. Ensuite, fusionnez ces petits fichiers. Aujourd'hui, je vais partager comment diviser et fusionner des fichiers volumineux à l'aide de Python. Idée et mise en œuvre S'il s'agit d'un fichier texte, il peut être divisé par le nombre de lignes. Qu'il s'agisse d'un fichier texte ou d'un fichier binaire, il peut être divisé selon la taille spécifiée. À l'aide de la fonction de lecture et d'écriture de fichiers de Python, vous pouvez diviser et fusionner des fichiers, définir la taille de chaque fichier, puis lire les octets de la taille spécifiée et les écrire dans un nouveau fichier. L'extrémité réceptrice lit les petits fichiers dans l'ordre et les écrit. Les octets sont écrits dans un fichier dans l'ordre, donc

Technologie de détection et de reconnaissance des visages implémentée à l'aide de Java Technologie de détection et de reconnaissance des visages implémentée à l'aide de Java Jun 18, 2023 am 09:08 AM

Avec le développement continu de la technologie de l’intelligence artificielle, la technologie de détection et de reconnaissance des visages est devenue de plus en plus largement utilisée dans la vie quotidienne. Dans diverses occasions, telles que les systèmes de contrôle d'accès facial, les systèmes de paiement facial, les moteurs de recherche de visage, etc., les technologies de détection et de reconnaissance faciale sont largement utilisées. En tant que langage de programmation largement utilisé, Java peut également mettre en œuvre une technologie de détection et de reconnaissance des visages. Cet article explique comment utiliser Java pour implémenter la technologie de détection et de reconnaissance des visages. 1. Technologie de détection de visage La technologie de détection de visage fait référence à la technologie qui détecte les visages dans les images ou les vidéos. en J

Conseils pour réduire la taille du fichier d'enregistrement d'écran Win10 Conseils pour réduire la taille du fichier d'enregistrement d'écran Win10 Jan 04, 2024 pm 12:05 PM

De nombreux amis ont besoin d'enregistrer des écrans pour le travail de bureau ou de transférer des fichiers, mais parfois le problème des fichiers trop volumineux pose beaucoup de problèmes. Ce qui suit est une solution au problème des fichiers trop volumineux, jetons-y un coup d'œil. Que faire si le fichier d'enregistrement d'écran Win10 est trop volumineux : 1. Téléchargez le logiciel Format Factory pour compresser le fichier. Adresse de téléchargement >> 2. Entrez dans la page principale et cliquez sur l'option "Vidéo-MP4". 3. Cliquez sur « Ajouter un fichier » sur la page du format de conversion et sélectionnez le fichier MP4 à compresser. 4. Cliquez sur « Configuration de sortie » sur la page pour compresser le fichier en fonction de la qualité de sortie. 5. Sélectionnez « Faible qualité et taille » dans la liste de configuration déroulante et cliquez sur « OK ». 6. Cliquez sur "OK" pour terminer l'importation des fichiers vidéo. 7. Cliquez sur "Démarrer" pour démarrer la conversion. 8. Une fois terminé, vous pouvez

Un article parlant du système de reconnaissance des panneaux de signalisation en conduite autonome Un article parlant du système de reconnaissance des panneaux de signalisation en conduite autonome Apr 12, 2023 pm 12:34 PM

Qu'est-ce qu'un système de reconnaissance des panneaux de signalisation ? Le système de reconnaissance des panneaux de signalisation du système de sécurité automobile, dont la traduction anglaise est : Traffic Sign Recognition, ou TSR en abrégé, utilise une caméra frontale combinée à un mode de reconnaissance des panneaux de signalisation courants (limitation de vitesse, stationnement, demi-tour, etc.). Cette fonction avertit le conducteur des panneaux de signalisation devant lui afin qu'il puisse y obéir. La fonction TSR améliore la sécurité en réduisant la probabilité que les conducteurs désobéissent au code de la route, comme les panneaux d'arrêt, et évitent les virages à gauche illégaux ou d'autres infractions involontaires au code de la route. Ces systèmes nécessitent des plates-formes logicielles flexibles pour améliorer les algorithmes de détection et s'adapter aux panneaux de signalisation dans différentes zones. Principe de reconnaissance des panneaux de signalisation La reconnaissance des panneaux de signalisation est également appelée TS

See all articles