Améliorant les capacités d'apprentissage génératif sans tir, la méthode de prototypage sémantique dynamique visuellement améliorée a été sélectionnée pour le CVPR 2024-IA-php.cn

Table des matières

Détails de la recherche

Peut être étendu aux domaines de la sécurité intelligente et des grands modèles

Présentation de l'auteur

Maison

Périphériques technologiques

Améliorant les capacités d'apprentissage génératif sans tir, la méthode de prototypage sémantique dynamique visuellement améliorée a été sélectionnée pour le CVPR 2024

王林

Mar 16, 2024 am 09:20 AM

ai 训练

Bien que je ne vous ai jamais rencontré, il m'est possible de vous « connaître » - c'est l'état que les gens espèrent que l'intelligence artificielle atteigne après le « premier regard ».

Afin d'atteindre cet objectif, dans les tâches traditionnelles de reconnaissance d'images, les gens entraînent des modèles d'algorithmes sur un grand nombre d'échantillons d'images avec différentes étiquettes de catégorie, afin que le modèle puisse acquérir la capacité de reconnaître ces images. Dans la tâche d'apprentissage sans tir (ZSL), les gens espèrent que le modèle pourra tirer des conclusions et identifier les catégories qui n'ont pas vu d'échantillons d'images au cours de la phase de formation.

L'apprentissage zéro-shot (GZSL) est considéré comme une méthode efficace pour l'apprentissage zéro-shot. Dans GZSL, la première étape consiste à former un générateur pour synthétiser les caractéristiques visuelles des catégories invisibles. Ce processus de génération repose sur l'exploitation de descriptions sémantiques telles que les étiquettes d'attribut en tant que conditions. Une fois ces fonctionnalités visuelles virtuelles générées, vous pouvez commencer à former un modèle de classification capable de reconnaître les classes invisibles, tout comme vous le feriez avec un classificateur traditionnel.

La formation du générateur est cruciale pour les algorithmes d'apprentissage génératif zero-shot. Idéalement, les échantillons de caractéristiques visuelles d'une catégorie invisible générés par le générateur sur la base de la description sémantique devraient avoir la même distribution que les caractéristiques visuelles des échantillons réels de cette catégorie. Cela signifie que le générateur doit être capable de capturer avec précision les relations et les modèles entre les caractéristiques visuelles afin de générer des échantillons avec un degré élevé de cohérence et de crédibilité. En entraînant le générateur, il peut apprendre efficacement les différences de caractéristiques visuelles entre les différentes catégories, et

Dans la méthode d'apprentissage générative Zero-shot existante, lorsque le générateur est entraîné et utilisé, il s'agit du bruit gaussien et de la description sémantique globale de les catégories sont conditionnelles, ce qui limite le générateur à optimiser uniquement pour la catégorie entière au lieu de décrire chaque instance d'échantillon, il est donc difficile de refléter avec précision la distribution des caractéristiques visuelles des échantillons réels, ce qui entraîne de mauvaises performances de généralisation du modèle. De plus, les informations visuelles de l'ensemble de données partagées par les classes vues et les classes invisibles, c'est-à-dire les connaissances du domaine, ne sont pas pleinement utilisées dans le processus de formation du générateur, ce qui limite le transfert de connaissances des classes vues vers les classes invisibles.

Afin de résoudre ces problèmes, des étudiants diplômés de l'Université des sciences et technologies de Huazhong et des experts techniques d'Intime Business Group, une filiale d'Alibaba, ont proposé une méthode appelée Visually Enhanced Dynamic Semantic Prototyping (VADS). Cette approche introduit plus complètement les caractéristiques visuelles des classes vues dans les conditions sémantiques, permettant au générateur push d'apprendre des mappages sémantiques-visuels précis. Ce document de recherche « Prototype sémantique dynamique augmenté visuellement pour l'apprentissage génératif Zero-Shot » a été accepté par CVPR 2024, la plus grande conférence universitaire internationale dans le domaine de la vision par ordinateur.

Plus précisément, la recherche ci-dessus présente trois points innovants :

Dans l'apprentissage zéro-shot, les fonctionnalités visuelles sont utilisées pour améliorer le générateur afin de générer des fonctionnalités visuelles fiables, ce qui est une méthode innovante.

La recherche a également introduit deux composants, VDKL et VOSU. À l'aide de ces composants, l'a priori visuel de l'ensemble de données est efficacement obtenu, et en mettant à jour dynamiquement les caractéristiques visuelles de l'image, la description sémantique de la catégorie prédéfinie est. mis à jour . Cette méthode utilise efficacement les fonctionnalités visuelles.

Les résultats expérimentaux montrent que l'effet de l'utilisation de fonctionnalités visuelles pour améliorer le générateur dans cette étude est très significatif. Non seulement cette approche plug-and-play est très polyvalente, mais elle excelle également dans l’amélioration des performances du générateur.

Détails de la recherche

VADS se compose de deux modules : (1) Le module d'apprentissage des connaissances du domaine de perception visuelle (VDKL) apprend les biais locaux et les priorités globales des caractéristiques visuelles, c'est-à-dire les connaissances visuelles du domaine, qui remplacent le bruit gaussien pur. fournit des informations de bruit préalables plus riches ; (2) Le module de mise à jour sémantique orientée vision (VOSU) apprend comment mettre à jour son prototype sémantique en fonction de la représentation visuelle de l'échantillon, et le prototype post-sémantique mis à jour contient également des connaissances visuelles du domaine.

Enfin, l'équipe de recherche a connecté les sorties des deux modules dans un vecteur prototype sémantique dynamique comme condition du générateur. Un grand nombre d'expériences montrent que la méthode VADS atteint des performances nettement meilleures que les méthodes existantes sur des ensembles de données d'apprentissage zéro-shot couramment utilisés, et peut être combinée avec d'autres méthodes d'apprentissage génératives zéro-shot pour obtenir des améliorations générales en termes de précision.

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

Dans le module d'apprentissage des connaissances du domaine de la perception visuelle (VDKL), l'équipe de recherche a conçu un encodeur visuel (VE) et un réseau d'apprentissage des connaissances du domaine (DKL). Parmi eux, VE code les caractéristiques visuelles en caractéristiques latentes et en codage latent. En utilisant la perte contrastive pour entraîner VE à l'aide d'échantillons d'images de classe vues pendant la phase de formation du générateur, VE peut améliorer la séparabilité de classe des caractéristiques visuelles.

Lors de la formation du classificateur ZSL, les caractéristiques visuelles invisibles générées par le générateur sont également entrées dans VE, et les caractéristiques latentes obtenues sont connectées aux caractéristiques visuelles générées en tant qu'échantillon final de caractéristiques visuelles. L'autre sortie de VE, c'est-à-dire le codage latent, forme un écart local b après la transformation DKL, qui est combiné avec l'a priori global apprenable et le bruit gaussien aléatoire en un bruit a priori visuel lié au domaine pour remplacer d'autres échantillons zéro purs génératifs. Bruit gaussien couramment utilisé en apprentissage dans le cadre des conditions de génération du générateur.

Dans le module de mise à jour sémantique orientée vision (VOSU), l'équipe de recherche a conçu un prédicteur sémantique visuel VSP et un réseau de cartographie de mise à jour sémantique SUM. Dans la phase de formation de VOSU, VSP prend les caractéristiques visuelles de l'image en entrée pour générer un vecteur sémantique prédit qui peut capturer le modèle visuel de l'image cible. En même temps, SUM prend le prototype sémantique de catégorie en entrée, le met à jour et l'obtient. le prototype sémantique mis à jour, puis VSP et SUM sont formés en minimisant la perte d'entropie croisée entre le vecteur sémantique prédit et le prototype sémantique mis à jour. Le module VOSU peut ajuster dynamiquement le prototype sémantique en fonction des fonctionnalités visuelles, permettant au générateur de s'appuyer sur des informations sémantiques plus précises au niveau de l'instance lors de la synthèse de nouvelles fonctionnalités de catégorie.

Dans la partie expérimentale, la recherche ci-dessus a utilisé trois ensembles de données ZSL couramment utilisés dans le monde universitaire : Animals with Attributes 2 (AWA2), SUN Attribute (SUN) et Caltech-USCD Birds-200-2011 (CUB), pour les méthodes traditionnelles. Les principaux indicateurs de l’apprentissage zéro-shot et de l’apprentissage zéro-shot généralisé sont comparés de manière exhaustive avec d’autres méthodes représentatives récentes.

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

En termes d'indicateur Acc de l'apprentissage traditionnel sans tir, la méthode de cette étude a obtenu des améliorations significatives de la précision par rapport aux méthodes existantes, menant respectivement de 8,4 %, 10,3 % et 8,4 sur les trois ensembles de données. %. Dans le scénario d'apprentissage généralisé sans tir, la méthode de recherche ci-dessus occupe également une position de leader en ce qui concerne l'indice moyen harmonique H de la classe invisible et la précision de la classe vue.

La méthode VADS peut également être combinée avec d'autres méthodes d'apprentissage génératif zero-shot. Par exemple, après combinaison avec les trois méthodes CLSWGAN, TF-VAEGAN et FREE, les indicateurs Acc et H sur les trois ensembles de données sont significativement améliorés et l'amélioration moyenne des trois ensembles de données est de 7,4 %/5,9 %, 5,6 %. /6,4% et 3,3%/4,2%.

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

En visualisant les caractéristiques visuelles générées par le générateur, on peut voir que les caractéristiques de certaines catégories ont été à l'origine confondues, comme la classe vue "Chat à poitrine jaune" et la classe invisible affichée dans (b ) ci-dessous. Les deux types de caractéristiques « Yellowthroat » peuvent être clairement séparés en deux groupes dans la figure (c) après avoir utilisé la méthode VADS, évitant ainsi toute confusion lors de la formation du classificateur.

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

Peut être étendu aux domaines de la sécurité intelligente et des grands modèles

Machine Heart comprend que l'apprentissage zéro-shot axé sur l'équipe de recherche mentionnée ci-dessus vise à permettre au modèle de reconnaître de nouvelles catégories qui n'ont pas d'échantillons d'images au stade de la formation, ce qui a une valeur potentielle dans le domaine de la sécurité intelligente.

Tout d'abord, traitez les risques émergents dans les scénarios de sécurité. Étant donné que de nouveaux types de menaces ou des modèles de comportement inhabituels continueront d'apparaître dans les scénarios de sécurité, ils n'apparaissent peut-être pas dans les données de formation précédentes. L'apprentissage zéro-shot permet aux systèmes de sécurité d'identifier et de répondre rapidement aux nouveaux types de risques, améliorant ainsi la sécurité.

Deuxièmement, réduisez la dépendance à l'égard des échantillons de données : obtenir suffisamment de données annotées pour former un système de sécurité efficace est coûteux et prend du temps. L'apprentissage zéro réduit la dépendance du système à l'égard d'un grand nombre d'échantillons d'images, économisant ainsi les coûts de R&D. .

Troisièmement, améliorez la stabilité dans les environnements dynamiques : l'apprentissage sans tir utilise la description sémantique pour reconnaître des modèles de classe invisibles. Par rapport aux méthodes traditionnelles qui reposent entièrement sur les caractéristiques de l'image, il est naturellement plus résilient aux changements de stabilité de l'environnement.

En tant que technologie sous-jacente pour résoudre les problèmes de classification d'images, cette technologie peut également être mise en œuvre dans des scénarios qui s'appuient sur la technologie de classification visuelle, tels que la reconnaissance d'attributs de personnes, de biens, de véhicules et d'objets, la reconnaissance de comportement, etc. Surtout dans les scénarios où de nouvelles catégories à identifier doivent être rapidement ajoutées et où l'on n'a pas le temps de collecter des échantillons de formation, ou où il est difficile de collecter un grand nombre d'échantillons (comme l'identification des risques), la technologie d'apprentissage zéro-shot présente de grands avantages. par rapport aux méthodes traditionnelles.

Cette technologie de recherche a-t-elle une référence pour le développement des grands modèles actuels ?

Les chercheurs pensent que l'idée centrale de l'apprentissage génératif zéro-shot est d'aligner l'espace sémantique et l'espace des fonctionnalités visuelles, ce qui est cohérent avec les objectifs de recherche des modèles de langage visuel (tels que CLIP) dans les multi- grands modèles modaux.

La plus grande différence entre eux est que l'apprentissage génératif sans tir est formé et utilisé sur des catégories limitées prédéfinies d'ensembles de données, tandis que les grands modèles de langage visuel sont polyvalents grâce à l'apprentissage des capacités de représentation sémantique et visuelle. à des catégories limitées. En tant que modèle de base, ils ont une gamme d’applications plus large.

Si le scénario d'application de la technologie se situe dans un domaine spécifique, vous pouvez choisir d'adapter et d'affiner le grand modèle à ce domaine. Dans ce processus, travaillez dans la même direction de recherche ou dans une direction similaire à celle que cet article peut théoriquement. apporter une inspiration utile.

Présentation de l'auteur

Hou Wenjin, étudiant en master à l'Université des Sciences et Technologies de Huazhong, s'intéresse à la vision par ordinateur, à la modélisation générative, à l'apprentissage en quelques coups, etc. Il a réalisé cette thèse lors de son stage à Alibaba-Intime Business.

Wang Yan, directeur de la technologie commerciale d'Alibaba-Intime, chef des algorithmes de l'équipe intelligente de Shenzhen Xiang.

Feng Xuetao, expert senior en algorithmes chez Alibaba-Intime Business, se concentre principalement sur l'application d'algorithmes visuels et multimodaux dans le commerce de détail hors ligne et dans d'autres secteurs.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

Assassin's Creed Shadows - Comment trouver le forgeron et déverrouiller les armes et la personnalisation des armes

1 Il y a quelques mois By DDD

<🎜>: Dead Rails - Comment relever chaque défi

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7622

Tutoriel CakePHP

1389

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

138

Afficher plus

Related knowledge

Rexas Finance (RXS) peut dépasser Solana (Sol), Cardano (ADA), XRP et Dogecoin (DOGE) en 2025 Apr 21, 2025 pm 02:30 PM

Sur le marché volatil des crypto-monnaies, les investisseurs recherchent des alternatives qui vont au-delà des devises populaires. Bien que les crypto-monnaies bien connues telles que Solana (Sol), Cardano (ADA), XRP et Dogecoin (DOGE) sont également confrontées à des défis tels que le sentiment du marché, l'incertitude réglementaire et l'évolutivité. Cependant, un nouveau projet émergent, la rexasfinance (RXS), est en émergence. Il ne s'appuie pas sur les effets de célébrités ou le battage médiatique, mais se concentre sur la combinaison des actifs du monde réel (RWA) avec la technologie de la blockchain pour offrir aux investisseurs une façon innovante d'investir. Cette stratégie le fait espérer être l'un des projets les plus réussis de 2025. Rexasfi

Global Asset lance un nouveau système de trading intelligent axé sur l'IA pour améliorer l'efficacité du trading mondial Apr 20, 2025 pm 09:06 PM

Global Assets lance un nouveau système de trading intelligent d'IA pour diriger la nouvelle ère de l'efficacité des échanges! La plate-forme de trading complète bien connue Global Assets a officiellement lancé son système de trading intelligent AI, visant à utiliser l'innovation technologique pour améliorer l'efficacité commerciale mondiale, optimiser l'expérience utilisateur et contribuer à la construction d'une plate-forme de trading mondiale sûre et fiable. Cette décision marque une étape clé pour les actifs mondiaux dans le domaine de la finance intelligente, consolidant davantage son leadership mondial du marché. Ouverture d'une nouvelle ère de négociation intelligente axée sur la technologie et ouverte. Dans le contexte du développement approfondi de la numérisation et de l'intelligence, la dépendance du marché commercial à l'égard de la technologie augmente. Le système de trading intelligent AI lancé par Global Assets intègre des technologies de pointe telles que l'analyse des mégadonnées, l'apprentissage automatique et la blockchain, et s'engage à fournir aux utilisateurs des services de trading intelligents et automatisés pour réduire efficacement les facteurs humains.

Pourquoi la hausse ou la baisse des prix de monnaie virtuelle? Pourquoi la hausse ou la baisse des prix de monnaie virtuelle? Apr 21, 2025 am 08:57 AM

Les facteurs de la hausse des prix des devises virtuels comprennent: 1. Une augmentation de la demande du marché, 2. Daisser l'offre, 3. Stimulé de nouvelles positives, 4. Sentiment du marché optimiste, 5. Environnement macroéconomique; Les facteurs de déclin comprennent: 1. Daissement de la demande du marché, 2. AUGMENT DE L'OFFICATION, 3. Strike of Negative News, 4. Pespimiste Market Sentiment, 5. Environnement macroéconomique.

Le marché mondial des jetons unkillable a commencé la nouvelle lune en avril 2025 sain et fort Apr 20, 2025 pm 06:21 PM

Defidungeons, une série NFT dans un jeu de RPG de placement fantastique propulsé par la blockchain Solana, a montré de solides performances sur le marché début avril 2025. Le marché mondial de la NFT a commencé fortement en avril après des semaines de croissance du volume commercial. Au cours des dernières 24 heures, le volume total des transactions NFT a atteint 14 millions de dollars US, le volume de négociation en flèche de 46% par rapport à la veille. Voici la série NFT la plus chaude de la première semaine d'avril: Defidungeonsnft Series: Ce jeu RPG de placement fantastique NFT sur la blockchain Solana est devenu la série NFT la plus vendue au cours de la première semaine d'avril. Au cours des dernières 24 heures, le volume des transactions a atteint 1,5 million de dollars américains, avec une valeur marchande totale de plus de 5 millions de dollars américains.

La liste des licences de conformité pour les dix premiers échanges de blockchain. Quelles sont les plateformes de sélection de supervision stricte? Apr 21, 2025 am 08:12 AM

Binance, Okx, Coinbase, Kraken, Huobi, Gate.io, Gemini, Xbit, Bitget et Mexc sont toutes des plateformes strictement sélectionnées pour la sélection réglementaire. 1. Binance s'adapte à la supervision en créant une sous-plate-forme de conformité. 2. OKX renforce la gestion de la conformité grâce à la vérification KYB. 3.Coinbase est connu pour sa conformité et sa convivialité. 4.Kraken fournit de puissantes mesures KYC et anti-blanchiment d'argent. 5. Huobi opère conformément au marché asiatique. 6.gate.io se concentre sur la sécurité et la conformité des transactions. 7. Gemini se concentre sur la sécurité et la transparence. 8.xbit est un modèle de conformité de transaction décentralisée. 9.Bitget continue de travailler dans les opérations de conformité. 10.Mexc a réussi

Suivez le rythme de Coinjie.com: Quelle est la perspective d'investissement de la finance cryptographique et des affaires AAAS Apr 21, 2025 am 10:42 AM

Les perspectives d'investissement des entreprises de financement cryptographique et AAAS sont analysées comme suit: 1. Les opportunités de financement cryptographique comprennent la croissance de la taille du marché, la réglementation claire progressive et l'expansion des scénarios d'application, mais les défis de la volatilité du marché et de la sécurité technique sont confrontés. 2. Les opportunités des activités AAAS résident dans la promotion de l'innovation technologique, de l'exploration de données et des scénarios d'applications riches, mais les défis incluent la complexité technique et l'acceptation du marché.

WEB3 Trading Platform Ranking_Web3 Global Exchanges Top Ten Résumé Apr 21, 2025 am 10:45 AM

Binance est le suzerain de l'écosystème mondial de trading d'actifs numériques, et ses caractéristiques comprennent: 1. Le volume de négociation quotidien moyen dépasse 150 milliards de dollars, prend en charge 500 paires de négociation, couvrant 98% des monnaies grand public; 2. La matrice d'innovation couvre le marché des dérivés, la mise en page Web3 et le système éducatif; 3. Les avantages techniques sont des moteurs de correspondance d'une milliseconde, avec des volumes de traitement de pointe de 1,4 million de transactions par seconde; 4. Conformité Progress détient des licences de 15 pays et établit des entités conformes en Europe et aux États-Unis.

Déverrouiller Binance Kernel AirDrop, nouveau gameplay pour les positions de maintien BNB Apr 21, 2025 pm 01:06 PM

Dans la vague des crypto-monnaies, de nouvelles opportunités et projets continuent d'émerger. Récemment, le projet Kerneldao (Kernel) lancé par Binance a attiré beaucoup d'attention, apportant un nouveau gameplay et des avantages aux détenteurs de BNB.

See all articles