Table des matières
VTM : Le premier apprenant sur quelques échantillons adapté à toutes les tâches de prédiction dense
Maison Périphériques technologiques IA Apprentissage universel en quelques étapes : une solution pour un large éventail de tâches de prédiction denses

Apprentissage universel en quelques étapes : une solution pour un large éventail de tâches de prédiction denses

Apr 26, 2023 pm 10:46 PM
计算机 模型

ICLR (International Conference on Learning Representations) est reconnue comme l'une des conférences académiques internationales les plus influentes sur l'apprentissage automatique.

Lors de la conférence ICLR 2023 de cette année, Microsoft Research Asia a publié les derniers résultats de recherche dans les domaines de la robustesse de l'apprentissage automatique, de l'intelligence artificielle responsable et d'autres domaines.

Parmi eux, les résultats de la coopération en matière de recherche scientifique entre Microsoft Research Asia et le Korea Advanced Institute of Science and Technology (KAIST) dans le cadre de la coopération académique des deux parties ont reçu le prix ICLR 2023 Exceptionnel pour leur clarté, leur perspicacité, leur créativité et leur impact durable potentiel.

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

Adresse papier : https://arxiv.org/abs/2303.14969

VTM : Le premier apprenant sur quelques échantillons adapté à toutes les tâches de prédiction dense

Les tâches de prédiction dense sont la vision par ordinateur. classe importante de tâches dans le domaine, telles que la segmentation sémantique, l'estimation de la profondeur, la détection des contours et la détection des points clés, etc. Pour de telles tâches, l’annotation manuelle des étiquettes au niveau des pixels se heurte à des coûts prohibitifs. Par conséquent, comment apprendre à partir d’une petite quantité de données étiquetées et faire des prédictions précises, c’est-à-dire l’apprentissage sur de petits échantillons, est un sujet très préoccupant dans ce domaine. Ces dernières années, la recherche sur l’apprentissage par petits échantillons a continué de faire des percées, en particulier certaines méthodes basées sur le méta-apprentissage et l’apprentissage contradictoire, qui ont attiré beaucoup d’attention et ont été bien accueillies par la communauté universitaire.

Cependant, les méthodes d'apprentissage de petits échantillons de vision par ordinateur existantes sont généralement destinées à un type spécifique de tâches, telles que les tâches de classification ou les tâches de segmentation sémantique. Ils exploitent souvent des connaissances antérieures et des hypothèses spécifiques à ces tâches dans la conception de l'architecture du modèle et du processus de formation, et ne conviennent donc pas à une généralisation à des tâches de prédiction denses arbitraires. Les chercheurs de Microsoft Research Asia souhaitaient explorer une question centrale : existe-t-il un apprenant généraliste capable d'apprendre des tâches de prédiction denses pour des segments arbitraires d'images invisibles à partir d'un petit nombre d'images étiquetées.

Le but d'une tâche de prédiction dense est d'apprendre un mappage entre les images d'entrée et les étiquettes annotées en pixels, qui peuvent être définies comme :

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

où H et W sont la hauteur et la largeur de l'image respectivement, l'image d'entrée contient généralement trois canaux RVB et C_Τ représente le nombre de canaux de sortie. Différentes tâches de prédiction dense peuvent impliquer différents numéros de canal de sortie et attributs de canal. Par exemple, la sortie d'une tâche de segmentation sémantique est binaire multicanal, tandis que la sortie d'une tâche d'estimation de profondeur est une valeur continue à canal unique. Un apprenant F général à quelques échantillons, pour une telle tâche Τ, étant donné un petit nombre d'ensembles de supports d'échantillons étiquetés S_Τ (y compris N groupes d'échantillons X^i et d'étiquettes Y^i), peut apprendre de manière invisible en interrogeant l'architecture de l'image. Cette structure est capable de gérer des tâches de prédiction arbitrairement denses et partage les paramètres requis pour la plupart des tâches afin d'obtenir des connaissances généralisables, permettant l'apprentissage de toute tâche invisible avec un petit nombre d'échantillons.

ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器Deuxièmement, l'apprenant doit ajuster de manière flexible son mécanisme de prédiction pour résoudre des tâches invisibles avec diverses sémantiques tout en étant suffisamment efficace pour éviter le surapprentissage.

Par conséquent, des chercheurs de Microsoft Research Asia ont conçu et mis en œuvre le jeton visuel d'apprenant sur petit échantillon correspondant à VTM (Visual Token Matching), qui peut être utilisé pour toute tâche de prédiction dense. Il s'agit du
    le premier apprenant sur petits échantillons
  • adapté à toutes les tâches de prédiction intensives ouvre une nouvelle façon de penser pour le traitement des tâches de prédiction intensives et des méthodes d'apprentissage sur petits échantillons en vision par ordinateur. Ce travail a remporté le
  • ICLR 2023 Outstanding Paper Award
  • .

    La conception de VTM s'inspire de l'analogie avec le processus de pensée humaine : étant donné un petit nombre d'exemples d'une nouvelle tâche, les humains peuvent rapidement attribuer des sorties similaires à des entrées similaires en fonction de la similitude entre les exemples, et peuvent également attribuer des sorties similaires. à des entrées similaires en fonction de la similitude entre les exemples. Le contexte varie à quels niveaux l'entrée et la sortie sont similaires. Les chercheurs ont mis en œuvre un processus d’analogie pour la prédiction dense utilisant une correspondance non paramétrique basée sur les niveaux de correctifs. Grâce à la formation, le modèle est inspiré pour capturer les similitudes dans les patchs d'image.

    Étant donné un petit nombre d'exemples étiquetés pour une nouvelle tâche, VTM ajustera d'abord sa compréhension de la similarité en fonction de l'exemple donné et de l'étiquette de l'exemple, en verrouillant les correctifs d'image des correctifs d'image d'exemple qui sont similaires à l'image. patch à prédire, prédisez les étiquettes des patchs d'image invisibles en combinant leurs étiquettes.

    ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

    Figure 1 : Architecture globale de VTM

    VTM adopte une architecture d'encodeur-décodeur en couches pour obtenir une correspondance non paramétrique basée sur des blocs d'images à plusieurs niveaux. Il se compose principalement de quatre modules, à savoir l'encodeur d'image f_Τ, l'encodeur d'étiquette g, le module d'appariement et le décodeur d'étiquette h. Étant donné une image de requête et un ensemble de supports, l'encodeur d'image extrait d'abord indépendamment les représentations au niveau du patch d'image pour chaque requête et image de support. L'encodeur de balises extraira de la même manière chaque balise prenant en charge les balises. Compte tenu des étiquettes à chaque niveau, le module de correspondance effectue une correspondance non paramétrique et le décodeur d'étiquettes déduit finalement l'étiquette de l'image de requête.

    L'essence du VTM est une méthode de méta-apprentissage. Sa formation se compose de plusieurs épisodes, chaque épisode simule un petit échantillon de problème d'apprentissage. La formation VTM utilise l'ensemble de données de méta-formation D_train, qui contient une variété d'exemples étiquetés de tâches de prédiction dense. Chaque épisode de formation simule un scénario d'apprentissage en quelques étapes pour une tâche spécifique T_train dans l'ensemble de données, dans le but de produire l'étiquette correcte pour l'image de requête étant donné l'ensemble de support. Grâce à l'expérience d'apprentissage à partir de plusieurs petits échantillons, le modèle peut acquérir des connaissances générales pour s'adapter à de nouvelles tâches de manière rapide et flexible. Au moment du test, le modèle doit effectuer un apprentissage en quelques étapes sur toute tâche T_test qui n'est pas incluse dans l'ensemble de données d'entraînement D_train.

    Lorsqu'il s'agit de tâches arbitraires, étant donné que la dimension de sortie C_Τ de chaque tâche de méta-formation et de test est différente, cela devient un énorme défi de concevoir des paramètres de modèle général unifiés pour toutes les tâches. Pour fournir une solution simple et générale, les chercheurs ont transformé la tâche en sous-tâches C_Τ à canal unique, ont appris chaque canal séparément et ont modélisé chaque sous-tâche indépendamment à l'aide d'un modèle F partagé.

    Afin de tester VTM, les chercheurs ont également spécialement construit une variante de l'ensemble de données Taskonomy pour simuler l'apprentissage de petits échantillons de tâches de prédiction denses et invisibles. Taskonomy contient diverses images intérieures annotées, à partir desquelles les chercheurs ont sélectionné dix tâches de prédiction denses avec différentes sémantiques et dimensions de sortie et les ont divisées en cinq parties pour une validation croisée. Dans chaque division, deux tâches sont utilisées pour l'évaluation à petite échelle (T_test) et les huit tâches restantes sont utilisées pour la formation (T_train). Les chercheurs ont soigneusement construit les partitions afin que les tâches de formation et de test soient suffisamment différentes les unes des autres, par exemple en regroupant les tâches périphériques (TE, OE) en tâches de test pour permettre l'évaluation des tâches avec une nouvelle sémantique.

    ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

    Tableau 1 : Comparaison quantitative sur l'ensemble de données Taskonomy (ligne de base de quelques tirs). Après des tâches de formation provenant d'autres partitions, un apprentissage en 10 coups a été effectué sur la tâche de partition à tester, où des lignes de base entièrement supervisées ont été formées. et évalué sur chaque pli (DPT) ou tous les plis (InvPT)

    Le Tableau 1 et la Figure 2 démontrent quantitativement et qualitativement les performances d'apprentissage sur petit échantillon de VTM et des deux types de modèles de base sur dix tâches de prédiction denses respectivement. Parmi elles, DPT et InvPT sont les deux méthodes d'apprentissage supervisé les plus avancées. DPT peut être formé indépendamment pour chaque tâche, tandis qu'InvPT peut former conjointement toutes les tâches. Puisqu'il n'existait pas de méthode dédiée aux petits échantillons développée pour les tâches générales de prédiction dense avant VTM, les chercheurs ont comparé VTM avec trois méthodes de pointe de segmentation sur petits échantillons, à savoir DGPNet, HSNet et TVA, et les ont étendues pour gérer A. espace d'étiquette général pour les tâches de prédiction denses. VTM n'a pas eu accès à la tâche de test T_test pendant la formation et n'a utilisé qu'un petit nombre (10) d'images étiquetées au moment du test, mais il a obtenu les meilleurs résultats parmi tous les modèles de base à petite échelle et a bien performé sur de nombreuses tâches par rapport à la pleine compétitivité. modèles de base supervisés.

    ICLR 2023杰出论文奖得主分享:适配任意密集预测任务的通用小样本学习器

    Figure 2 : Comparaison qualitative de méthodes d'apprentissage en quelques coups sur une nouvelle tâche avec seulement dix images étiquetées sur les dix tâches de prédiction dense de Taskonomy. Là où d’autres méthodes ont échoué, VTM a réussi à apprendre toutes les nouvelles tâches avec une sémantique différente et des représentations d’étiquettes différentes.

    Dans la figure 2, au-dessus de la ligne pointillée se trouvent les véritables étiquettes et les deux méthodes d'apprentissage supervisé DPT et InvPT respectivement. Sous la ligne pointillée se trouve la méthode d’apprentissage sur petit échantillon. Notamment, d’autres bases de référence sur petit échantillon ont souffert d’un sous-apprentissage catastrophique sur les nouvelles tâches, tandis que VTM a réussi à apprendre toutes les tâches. Les expériences démontrent que VTM peut désormais fonctionner de manière tout aussi compétitive avec des références entièrement supervisées sur un très petit nombre d'exemples étiquetés (

    Pour résumer, bien que l'idée sous-jacente de VTM soit très simple, elle possède une architecture unifiée qui peut être utilisée pour des tâches de prédiction arbitrairement denses, puisque l'algorithme de correspondance englobe essentiellement toutes les tâches et structures d'étiquettes (par exemple, continu ou discret). De plus, VTM n'introduit qu'un petit nombre de paramètres spécifiques à la tâche pour obtenir une résistance et une flexibilité au surajustement. À l’avenir, les chercheurs espèrent explorer davantage l’impact du type de tâche, du volume et de la distribution des données sur les performances de généralisation du modèle au cours du processus de pré-formation, nous aidant ainsi à créer un apprenant véritablement universel sur un petit échantillon.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Publication du classement national CSRankings 2024 en informatique ! La CMU domine la liste, le MIT sort du top 5 Publication du classement national CSRankings 2024 en informatique ! La CMU domine la liste, le MIT sort du top 5 Mar 25, 2024 pm 06:01 PM

Les classements majeurs nationaux en informatique 2024CSRankings viennent d’être publiés ! Cette année, dans le classement des meilleures universités CS aux États-Unis, l'Université Carnegie Mellon (CMU) se classe parmi les meilleures du pays et dans le domaine de CS, tandis que l'Université de l'Illinois à Urbana-Champaign (UIUC) a été classé deuxième pendant six années consécutives. Georgia Tech s'est classée troisième. Ensuite, l’Université de Stanford, l’Université de Californie à San Diego, l’Université du Michigan et l’Université de Washington sont à égalité au quatrième rang mondial. Il convient de noter que le classement du MIT a chuté et est sorti du top cinq. CSRankings est un projet mondial de classement des universités dans le domaine de l'informatique initié par le professeur Emery Berger de la School of Computer and Information Sciences de l'Université du Massachusetts Amherst. Le classement est basé sur des objectifs

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. May 07, 2024 pm 04:13 PM

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao Apr 09, 2024 am 11:52 AM

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Apr 01, 2024 pm 07:46 PM

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! May 06, 2024 pm 04:13 PM

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye Apr 26, 2024 am 11:37 AM

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

See all articles