Table des matières

Maison

Apprentissage multimodal auto-supervisé : exploration des fonctions objectives, de l'alignement des données et de l'architecture des modèles - en prenant comme exemple la dernière revue d'Édimbourg

Apprentissage multimodal auto-supervisé : exploration des fonctions objectives, de l'alignement des données et de l'architecture des modèles - en prenant comme exemple la dernière revue d'Édimbourg

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 26, 2023 am 10:04 AM

模型

L'apprentissage multimodal vise à comprendre et analyser des informations provenant de multiples modalités, et des progrès substantiels ont été réalisés dans les mécanismes de supervision ces dernières années.

Cependant, une forte dépendance aux données associée à des annotations manuelles coûteuses entrave la mise à l'échelle du modèle. Dans le même temps, compte tenu de la disponibilité de données non étiquetées à grande échelle dans le monde réel, l’apprentissage auto-supervisé est devenu une stratégie intéressante pour atténuer le goulot d’étranglement de l’étiquetage.

Basé sur ces deux directions, l'apprentissage multimodal auto-supervisé (SSML) fournit une méthode pour exploiter la supervision à partir de données multimodales originales.

Apprentissage multimodal auto-supervisé : exploration des fonctions objectives, de lalignement des données et de larchitecture des modèles - en prenant comme exemple la dernière revue dÉdimbourg

Adresse papier : https://arxiv.org/abs/2304.01008

Adresse du projet : https://github. com/ys-zong/awesome-self-supervised-multimodal-learning

Dans cette revue, nous proposons un examen complet de l'état de l'art en SSML, que nous classons selon trois axes orthogonaux : Fonction objectif, alignement des données et architecture du modèle. Ces axes correspondent aux caractéristiques inhérentes aux méthodes d'apprentissage auto-supervisé et aux données multimodales.

Plus précisément, nous divisons les objectifs de formation en catégories de discrimination d'instance, de clustering et de prédiction de masque. Nous discutons également des stratégies d’appariement et d’alignement des données d’entrée multimodales pendant la formation. Enfin, l'architecture du modèle est passée en revue, y compris la conception des encodeurs, des modules de fusion et des décodeurs, qui sont des composants importants des méthodes SSML.

Examine les tâches d'application multimodales en aval, rapporte les performances spécifiques des modèles image-texte de pointe et des modèles vidéo multimodaux, et examine également les applications pratiques des algorithmes SSML dans différents domaines, tels que les soins de santé. , télédétection et traduction automatique. Enfin, les défis et les orientations futures de SSML sont discutés.

1. Introduction

Les humains perçoivent le monde à travers divers sens, notamment la vision, l'ouïe, le toucher et l'odorat. Nous acquérons une compréhension globale de notre environnement en tirant parti des informations complémentaires de chaque modalité. La recherche en IA s’est concentrée sur le développement d’agents intelligents qui imitent le comportement humain et comprennent le monde de la même manière. À cette fin, le domaine de l’apprentissage automatique multimodal [1], [2] vise à développer des modèles capables de traiter et d’intégrer des données provenant de plusieurs modalités différentes. Ces dernières années, l’apprentissage multimodal a fait des progrès significatifs, conduisant à une série d’applications dans l’apprentissage visuel et linguistique [3], la compréhension vidéo [4], [5], la biomédecine [6], la conduite autonome [7] et d’autres domaines. Plus fondamentalement, l’apprentissage multimodal fait progresser des problèmes fondamentaux de longue date dans l’intelligence artificielle [8], nous rapprochant d’une intelligence artificielle plus générale.

Cependant, les algorithmes multimodaux nécessitent encore souvent une annotation manuelle coûteuse pour un entraînement efficace, ce qui entrave leur expansion. Récemment, l'apprentissage auto-supervisé (SSL) [9], [10] a commencé à atténuer ce problème en générant une supervision à partir de données annotées facilement disponibles. L'autosupervision dans l'apprentissage monomodal est assez bien définie et dépend uniquement des objectifs de formation et de l'utilisation ou non de l'annotation humaine pour la supervision. Cependant, dans le contexte de l’apprentissage multimodal, sa définition est plus nuancée. Dans l’apprentissage multimodal, une modalité agit souvent comme un signal de supervision pour une autre modalité. En ce qui concerne l’objectif de mise à l’échelle ascendante en éliminant le goulot d’étranglement des annotations manuelles, une question clé dans la définition de la portée de l’auto-supervision est de savoir si les appariements multimodaux sont librement acquis.

L'apprentissage multimodal auto-supervisé (SSML) améliore considérablement les capacités des modèles multimodaux en exploitant des données multimodales librement disponibles et des objectifs auto-supervisés. Dans cette revue, nous passons en revue les algorithmes SSML et leurs applications. Nous décomposons les différentes méthodes selon trois axes orthogonaux : fonction objectif, alignement des données et architecture du modèle. Ces axes correspondent aux caractéristiques des algorithmes d'apprentissage auto-supervisé et aux considérations spécifiques requises pour les données multimodales. La figure 1 donne un aperçu de la taxonomie proposée. Sur la base de la pré-tâche, nous divisons les objectifs de formation en catégories de discrimination d'instance, de clustering et de prédiction de masque. Les approches hybrides combinant deux ou plusieurs de ces approches sont également discutées.

Le problème du couplage de données multimodales est unique à l'auto-supervision multimodale. Les appariements, ou plus généralement les alignements, entre modalités peuvent être exploités par les algorithmes SSML en entrée (par exemple lors de l'utilisation d'une modalité pour assurer la supervision d'une autre), mais aussi en sortie (par exemple, apprendre à partir de données non appariées et induire un appariement en tant que un sous-produit). Nous discutons des différents rôles de l'alignement à des niveaux à granularité grossière qui sont souvent supposés être librement disponibles dans l'auto-supervision multimodale (par exemple, les images et les légendes explorées sur le Web [11]) ; , correspondance entre les mots du titre et les patchs d'image [12]). De plus, nous explorons l’intersection des fonctions objectives et des hypothèses d’alignement des données.

analyse également la conception de l'architecture de modèle SSML contemporaine. Plus précisément, nous considérons l'espace de conception des modules d'encodeur et de fusion, en comparant les encodeurs spécifiques à un mode (sans fusion ou avec fusion tardive) et les encodeurs unifiés avec fusion précoce. Nous examinons également les architectures avec des conceptions de décodeurs spécifiques et discutons de l'impact de ces choix de conception.

Enfin, les applications de ces algorithmes dans plusieurs domaines du monde réel, notamment la santé, la télédétection, la traduction automatique, etc., ainsi que les défis techniques et l'impact social de SSML est discuté. Une discussion approfondie a lieu et des orientations de recherche futures potentielles sont soulignées. Nous résumons les avancées récentes en matière de méthodes, d’ensembles de données et de mises en œuvre pour fournir un point de départ aux chercheurs et aux praticiens du domaine.

Les articles de synthèse existants se concentrent uniquement sur l'apprentissage multimodal supervisé [1], [2], [13], [14] ou sur un seul -apprentissage modal auto-supervisé [9], [10], [15], ou un certain sous-domaine de SSML, comme la pré-formation en langage visuel [16]. La revue la plus pertinente est [17], mais elle se concentre davantage sur les données temporelles et ignore les considérations clés de l'autosupervision multimodale de l'alignement et de l'architecture. En revanche, nous fournissons un aperçu complet et à jour des algorithmes SSML et proposons une nouvelle taxonomie couvrant les algorithmes, les données et l'architecture.

Apprentissage multimodal auto-supervisé : exploration des fonctions objectives, de lalignement des données et de larchitecture des modèles - en prenant comme exemple la dernière revue dÉdimbourg

2. Connaissances de base

en apprentissage multimodal -supervisé

Nous décrivons d'abord la portée du SSML considéré dans cette enquête, car ce terme a été utilisé de manière incohérente dans la littérature précédente. Définir l'auto-supervision dans un contexte monomodal est plus simple en invoquant la nature sans étiquette de différentes tâches prétextes, par exemple, la discrimination d'instance bien connue [20] ou la cible de prédiction masquée [21] mettent en œuvre l'auto-supervision. En revanche, la situation dans l’apprentissage multimodal est plus compliquée car les rôles de la modalité et de l’étiquette deviennent flous. Par exemple, dans le sous-titrage d’images supervisé [22], le texte est généralement traité comme une étiquette, mais dans l’apprentissage multimodal auto-supervisé des représentations visuelles et linguistiques [11], le texte est traité comme une modalité de saisie.

Dans le contexte multimodal, le terme auto-supervision a été utilisé pour désigner au moins quatre situations : (1) à partir de données multimodales automatiquement appariées Apprentissage sans étiquette – par exemple des films avec des pistes vidéo et audio [23], ou des données d'image et de profondeur provenant de caméras RGBD [24]. (2) Apprentissage à partir de données multimodales, dans lesquelles une modalité a été annotée manuellement, ou deux modalités ont été appariées manuellement, mais cette annotation a été créée dans un but différent et peut donc être considérée comme gratuite pour la pré-formation SSML. Par exemple, la mise en correspondance de paires image-légende extraites du Web, telle qu'utilisée dans le CLIP fondateur [11], est en fait un exemple d'apprentissage métrique supervisé [25], [26] où l'appariement est supervisé. Cependant, comme les modèles et les appariements sont disponibles gratuitement à grande échelle, ils sont souvent décrits comme auto-supervisés. Ces données non conservées et créées accidentellement sont souvent de moindre qualité et plus bruyantes que les ensembles de données spécialement conservés tels que COCO [22] et Visual Genome [27]. (3) Apprenez à partir de données multimodales annotées de haute qualité (par exemple, des images sous-titrées manuellement dans COCO [22]), mais avec un objectif de style auto-supervisé tel que Pixel-BERT [28]. (4) Enfin, il existe des méthodes « auto-supervisées » qui utilisent un mélange de données multimodales libres et étiquetées manuellement [29], [30]. Pour les besoins de cette enquête, nous suivons l'idée d'autosupervision et visons à passer à l'échelle en brisant le goulot d'étranglement de l'annotation manuelle. Par conséquent, nous incluons les deux premières catégories et la quatrième catégorie de méthodes en termes de possibilité de s'entraîner sur des données disponibles gratuitement. Nous excluons les méthodes présentées uniquement pour les ensembles de données organisés manuellement, car elles appliquent des objectifs typiques d'« auto-supervision » sur les ensembles de données organisés (par exemple, prédiction masquée).

Apprentissage multimodal auto-supervisé : exploration des fonctions objectives, de lalignement des données et de larchitecture des modèles - en prenant comme exemple la dernière revue dÉdimbourg

(a) Apprentissage multimodal supervisé et (b) auto-supervisé Paradigme d'apprentissage de l'apprentissage multimodal : pré-formation auto-supervisée sans annotation manuelle (en haut) réglage fin supervisé des tâches en aval (); bas) ).

3. Fonction objectif

Dans cette section, nous présenterons la fonction objectif utilisée pour entraîner trois catégories d'algorithmes multimodaux auto-supervisés : la discrimination d'instance, le clustering et la prédiction de masque. Enfin, nous avons également discuté des cibles hybrides.

3.1 Discrimination d'instance

Dans l'apprentissage monomode, la discrimination d'instance (ID) traite chaque instance dans les données d'origine comme une classe distincte et entraîne le modèle à distinguer différentes instances. Dans le contexte de l'apprentissage multimodal, la discrimination d'instance vise généralement à déterminer si les échantillons de deux modalités d'entrée proviennent de la même instance, c'est-à-dire appariés. Ce faisant, il tente d’aligner l’espace de représentation des paires de modèles tout en éloignant davantage l’espace de représentation des différentes paires d’instances. Il existe deux types d'objectifs de reconnaissance d'instance : la prédiction contrastive et la prédiction correspondante, en fonction de la manière dont l'entrée est échantillonnée.

Apprentissage multimodal auto-supervisé : exploration des fonctions objectives, de lalignement des données et de larchitecture des modèles - en prenant comme exemple la dernière revue dÉdimbourg

3.2 Clustering

Les méthodes de clustering supposent que l'application d'un clustering de bout en bout entraîné entraînera un regroupement des données en fonction de caractéristiques sémantiquement importantes. En pratique, ces méthodes prédisent de manière itérative les affectations de clusters de représentations codées et utilisent ces prédictions (également appelées pseudo-étiquettes) comme signaux de supervision pour mettre à jour les représentations de fonctionnalités. Le clustering multimodal offre la possibilité d'apprendre les représentations multimodales et également d'améliorer le clustering traditionnel en supervisant d'autres modalités à l'aide de pseudo-étiquettes pour chaque modalité.

3.3 Prédiction de masque

La tâche de prédiction de masque peut être effectuée en utilisant un codage automatique (similaire à BERT [101]) ou des méthodes de régression automatique (similaires à GPT [102]).

Apprentissage multimodal auto-supervisé : exploration des fonctions objectives, de lalignement des données et de larchitecture des modèles - en prenant comme exemple la dernière revue dÉdimbourg

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7479

Tutoriel CakePHP

1377

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. May 07, 2024 pm 04:13 PM

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao Apr 09, 2024 am 11:52 AM

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Apr 01, 2024 pm 07:46 PM

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Nouveaux travaux sur la prédiction de séries chronologiques + grand modèle NLP : générer automatiquement des invites implicites pour la prédiction de séries chronologiques Mar 18, 2024 am 09:20 AM

Aujourd'hui, j'aimerais partager un travail de recherche récent de l'Université du Connecticut qui propose une méthode pour aligner les données de séries chronologiques avec de grands modèles de traitement du langage naturel (NLP) sur l'espace latent afin d'améliorer les performances de prévision des séries chronologiques. La clé de cette méthode consiste à utiliser des indices spatiaux latents (invites) pour améliorer la précision des prévisions de séries chronologiques. Titre de l'article : S2IP-LLM : SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting Adresse de téléchargement : https://arxiv.org/pdf/2403.05798v1.pdf 1. Modèle de fond de problème important

Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! May 06, 2024 pm 04:13 PM

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye Apr 26, 2024 am 11:37 AM

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

See all articles