Brisant le triangle impossible et rivalisant avec 540 milliards de modèles, l'équipe IDEA Fengshen List n'atteint l'apprentissage SOTA sans échantillon qu'avec 200 millions de modèles-IA-php.cn

Table des matières

Maison

Brisant le triangle impossible et rivalisant avec 540 milliards de modèles, l'équipe IDEA Fengshen List n'atteint l'apprentissage SOTA sans échantillon qu'avec 200 millions de modèles

王林

Apr 09, 2023 pm 01:31 PM

参数模型

Depuis l'avènement de GPT-3, qui a démontré la puissance de centaines de milliards de modèles, les tâches de PNL se sont heurtées au triangle impossible de l'échelle, des échantillons et du réglage fin des performances. Comment un modèle de langage avec moins d'un milliard de paramètres peut-il atteindre les performances Few-Shot (ou même Zero-shot) et de réglage fin de SOTA ? Devons-nous disposer de centaines de milliards de paramètres et supporter des invites instables pour résoudre le scénario du zéro tir ? Dans cet article, l'équipe Fengshenbang de l'IDEA Research Institute présente un nouvel UniMC « phénoménologique », qui peut atteindre un SOTA zéro avec seulement 200 millions de paramètres. Les travaux connexes ont été acceptés par EMNLP 2022.

a souligné dans un article [1] cette année que depuis que la technologie de pré-formation a été proposée, il existe un triangle impossible dans le monde de la PNL (comme le montre la figure 1 ci-dessous), c'est-à-dire qu'un modèle ne peut pas satisfaire simultanément :

Taille de modèle moyenne (moins de 1 milliard) ;
Performances Few-Shot (ou même Zero-shot) de SOTA ;
Performances de réglage fin de SOTA.

Brisant le triangle impossible et rivalisant avec 540 milliards de modèles, léquipe IDEA Fengshen List natteint lapprentissage SOTA sans échantillon quavec 200 millions de modèles

Figure 1

La raison pour laquelle le triangle impossible existe est que le nombre de paramètres du modèle pré-entraîné actuel n'atteint qu'un certain ordre de grandeur, et l'utilisation de l'apprentissage des indices peut refléter la puissante performance de quelques tirs nuls.

L'article récemment publié par notre équipe de Fengshenbang et inclus dans l'EMNLP 2022 : "Zero-Shot Learners for Natural Language Understanding via a Unified Multiple Choice Perspective" brise cette "malédiction" et fournit une solution flexible et efficace. L'UniMC proposé dans notre article possède un très petit nombre de paramètres de modèle (seulement 100 millions de niveaux) et les capacités de réglage fin de SOTA. Il possède également les performances Few/Zero de SOTA (comparables aux 540 milliards de PaLM-Shot). .

Brisant le triangle impossible et rivalisant avec 540 milliards de modèles, léquipe IDEA Fengshen List natteint lapprentissage SOTA sans échantillon quavec 200 millions de modèles

Adresse papier : https://arxiv.org/abs/2210.08590
Adresse open source modèle : https://github.com/IDEA-CCNL/Fengshenbang - LM/tree/main/fengshen/examples/unimc/

L'introduction du BERT en 2018 a marqué que l'ensemble du domaine de la PNL est entré dans une ère de pré-formation, et la PNL a finalement fait une nouvelle étape faire un pas en avant. Les modèles existants tels que DeBERTa et d'autres modèles de langage masqué pré-entraînés (PMLM) peuvent déjà permettre un réglage fin du SOTA avec des paramètres inférieurs à 1 milliard, mais ils sont faibles face aux tâches NLU dans des scénarios sans tir.

La raison est que lors de l'utilisation de PMLM, nous devons ajouter une couche MLP par-dessus pour des tâches spécifiques, comme le montre la figure 2(c). De plus, cette couche MLP ajoutera des paramètres supplémentaires, ce qui fait que cette méthode choisit uniquement une initialisation aléatoire face à des scénarios sans tir, et il n'y a aucun moyen d'obtenir un résultat raisonnable. De plus, dans le scénario de réglage fin, l'ajout d'une couche MLP rendra également impossible le transfert entre différentes tâches (par exemple, il est impossible de transférer entre des tâches à 2 et 3 classifications).

Pour les scénarios Zero-shot, l'approche dominante de ces dernières années consiste à utiliser des dizaines, voire des centaines de milliards de modèles de langage pré-entraînés (PLM) pour convertir uniformément les tâches NLU en tâches de génération de texte. être construit manuellement ou manuellement Le verbaliseur est conçu de manière à ce que de grands modèles puissent être appliqués à des tâches sans tir, comme le montre la figure 2 (a). De plus, dans l'article FLAN, un grand nombre de modèles construits artificiellement sont utilisés pour unifier différentes tâches, de sorte que la connaissance d'autres tâches puisse être transférée à des tâches spécifiques, comme le montre la figure 2 (b). Cependant, un tel modèle génératif présente les inconvénients suivants :

La génération du modèle nécessite la génération d'un verbaliseur (description de l'étiquette), et les verbaliseurs sont généralement écrits manuellement, différents verbaliseurs entraîneront de grandes différences de performances ;
les invites doivent également être conçues manuellement, et différentes invites affecteront considérablement les performances ; . Affecte grandement l'effet des tâches en aval ;
Lors de l'inférence, le modèle génératif nécessite une autorégression pour générer des réponses, ce qui est lent. Et il est généralement unidirectionnel et ne peut pas obtenir d'informations bidirectionnelles comme BERT
Pour garantir des performances peu nombreuses/zéro, le nombre de paramètres de modèle générés est souvent important, atteignant 175 milliards pour GPT-3 ou 540 ; milliards pour PaLM ;
Bien que le réglage des instructions de FLAN puisse transférer des connaissances d'autres tâches vers des tâches spécifiques, une nouvelle formation est nécessaire pour faire face à différentes tâches. Par exemple, lors de l’évaluation de A, vous devez vous entraîner sur BCDE ; lors de l’évaluation de B, vous devez vous entraîner sur ACDE.

Et nous avons proposé la méthode UniMC dans la figure 2(d), qui évite les problèmes ci-dessus et atteint SOTA ou des performances similaires aux modèles les plus avancés dans plusieurs tâches chinoises et anglaises.

Brisant le triangle impossible et rivalisant avec 540 milliards de modèles, léquipe IDEA Fengshen List natteint lapprentissage SOTA sans échantillon quavec 200 millions de modèles

Figure 2

UniMC (un nouveau phénotype de modèle)

Idée de modèle

La plupart des tâches NLU sont basées sur des étiquettes, et la génération de modèles nécessite La génération d'étiquettes va sans aucun doute augmenter la difficulté de la tâche et le coût d’apprentissage du modèle. Pour de nombreuses tâches basées sur des étiquettes, il suffit généralement de donner le texte d'entrée et la probabilité que le texte de sortie appartienne à chaque étiquette. Partant de cette idée, nous transformons la tâche NLU en tâche à choix multiples (Multiple-Choice). Autrement dit, étant donné le texte, les questions et les options, affichez la probabilité de chaque option sans générer les options.

Sur cette base, nous proposons un nouveau concept : phénomène du modèle. Les expressions de modèle existantes ajoutent toujours une certaine couche ultérieurement, comme une couche de classification. Alternativement, le phénotype du modèle GPT généré consiste à exploiter la connaissance du modèle via Prompt. Le schéma UniMC que nous avons proposé ne nécessite l'introduction d'aucune couche supplémentaire dans le PMLM et exploite un autre phénotype de PMLM.

Dans cet article, nous choisissons ALBERT comme réseau PMLM de base.

Format uniforme à choix multiples

Comme le montre la figure 3, nous espérons convertir toutes les tâches NLU basées sur des étiquettes en un format MC (à choix multiples) unifié. Notre philosophie est d'ajouter le moins d'informations humaines possible.

Brisant le triangle impossible et rivalisant avec 540 milliards de modèles, léquipe IDEA Fengshen List natteint lapprentissage SOTA sans échantillon quavec 200 millions de modèles

Figure 3

Plus précisément, nous avons effectué les deux étapes suivantes :

Changer l'étiquette en option
Choisissez si vous souhaitez ajouter une invite de question (la question vient essentiellement de la description ; de l’ensemble de données).

Avantages : Une seule invite d'option est conçue, et une ou aucune invite de question est conçue.

Structure du modèle

La structure d'UniMC est illustrée dans la figure 4 ci-dessous, qui utilise une structure d'encodage automatique similaire à BERT. Le processus principal est que nous unifions d'abord les entrées des différentes tâches et limitons le flux d'informations d'entrée. Après PMLM, nous utilisons O-MLM, OP et MLM pour la formation MC, et enfin O-MLM et OP pour la prédiction du tir zéro. . Ensuite, je vais détailler notre solution étape par étape.

Brisant le triangle impossible et rivalisant avec 540 milliards de modèles, léquipe IDEA Fengshen List natteint lapprentissage SOTA sans échantillon quavec 200 millions de modèles

Figure 4

Entrée Entrée

Figure 5 Le contenu de la zone de la zone de ligne continue rouge. Avant d'entrer dans UniMC, il doit être traité et transformé au format de jeton unique d'UniMC. Afin d'améliorer l'efficacité du calcul, nous associons directement toutes les options avec des questions et du texte, c'est-à-dire [Options, Question, Passage]. Et on insère un jeton spécial devant chaque option, [O-MASK], pour indiquer oui ou non (sélectionner cette option ou non). (Remarque : afin d'améliorer la réutilisabilité, nous avons réutilisé le jeton [MASK].

Comme le montre la figure 5, le contenu de la zone verte en pointillés. Nous devons considérer qu'il y a trop de sources d'informations d'entrée, y compris informations sur les options, informations sur les questions et informations sur les segments de texte. Les informations entre elles s'influenceront mutuellement, nous espérons donc isoler différentes informations. Par exemple, si nous pouvons voir d'autres options lors de la saisie, la difficulté de cette question sera réduite et le modèle. sera inerte.

Nous avons donc pris en compte les considérations suivantes :

Utilisez l'ID de segment pour indiquer au modèle que l'option et les informations de contexte (question, passage) sont différentes ; le modèle pour traiter les différentes options de manière égale Informations de position
Modifiez la matrice du masque d'attention pour empêcher le modèle de voir les informations des différentes options, ce qui rend le modèle inerte

Brisant le triangle impossible et rivalisant avec 540 milliards de modèles, léquipe IDEA Fengshen List natteint lapprentissage SOTA sans échantillon quavec 200 millions de modèles .

Comment le modèle réalise-t-il les questions à choix multiples ? (O-MLM et OP)

Comme le montre la figure 6, nous utilisons les tâches O-MLM et OP pour permettre au modèle de « sélectionner » le La réponse O-MASK est entièrement héritée du jeton MASK (en particulier, afin de ne pas ajouter de paramètres supplémentaires et en utilisant pleinement les connaissances acquises par le modèle lors de la phase de pré-formation non supervisée, nous avons réutilisé les paramètres de la tête MaskLM) . La seule différence est qu'il est masqué à 100%. Le but de la tâche O-MLM est de faire décoder O-. Le rôle de la tâche OP est de prédire la réponse à partir du « oui » de chaque option. Plus précisément, nous prenons chaque option [O-MASK] Effectuons un softmax sur le logit de la sortie « oui » pour obtenir la probabilité de chacune. et choisissez l'option avec la probabilité la plus élevée comme réponse prédite. Traitement de plusieurs tâches MC en un seul lot

Comme le montre la figure 7, nous espérons mettre plusieurs ensembles de données MC dans un seul lot, ce qui peut améliorer les capacités. du modèle et le rendre plus unifié (Unifié). Lors du traitement par lots, nous avons découvert un problème : que se passe-t-il s'il y a des échantillons avec différentes options dans un lot

Nous avons donc conçu une méthode de masque logit pour attribuer directement l'infini négatif à non pertinent ? jetons devant la sortie. En additionnant les valeurs prédites, nous pouvons éliminer l'influence des autres jetons sur O-MASK lors du calcul du softmax. De plus, différents nombres de questions à choix multiples peuvent être traités uniformément dans un seul lot.

Figure 7 Brisant le triangle impossible et rivalisant avec 540 milliards de modèles, léquipe IDEA Fengshen List natteint lapprentissage SOTA sans échantillon quavec 200 millions de modèles

Formation et prédiction du modèle

Formation MC

Différent du réglage des instructions de FLAN, nous nous entraînons uniquement sur l'ensemble de données MC. Il s'agit principalement de permettre au modèle d'apprendre à poser des questions à choix multiples, et l'ensemble de données MC a un certain degré de polyvalence, par exemple. Les ensembles de données peuvent être déterminés par le nombre d'étiquettes inégales.

Figure 8

Inférence zéro-shot

Fait intéressant, nous pouvons constater que ces deux tâches peuvent être effectuées en deux étapes : Entraînement et inférence zéro-shot Avoir une cohérence. En effet, nous utilisons deux tâches, O-MLM et OP, pour permettre au modèle de répondre à des questions à choix multiples. Et depuis que nous avons abandonné la couche de classification, tous les paramètres peuvent être réutilisés, activant ainsi la capacité Zero-shot du PMLM.

Figure 9

Performance UniMC

Scénario anglais

Nous avons collecté 14 tâches à choix multiples pour la pré-formation, puis avons effectué d'autres tâches NLU pour le tir zéro Tests de performances. Dans 4 tâches NLI, UniMC atteint SOTA et dépasse le modèle PaLM à 540 milliards de paramètres.

Figure 10

Et nous avons battu le réseau avec GPT-2 et GPT-3 comme épine dorsale sur la tâche de classification. Pour la tâche très difficile de Dbpedia, jusqu'à 13 catégories, une précision même ultra-élevée de 88,9 % peut être obtenue.

Figure 11

Afin d'explorer la généralisation de l'UNIMC, nous l'avons comparé avec FLAN. Comme on peut le constater, notre UniMC peut surpasser ou se rapprocher du FLAN dans presque toutes les tâches.

Figure 12

Scène chinoise

Dans la scène chinoise, nous avons collecté 40 ensembles de données supervisés et les avons uniformément construits sous forme de formulaires de tâches MC pour effectuer des expériences sur le modèle UniMC. -s'entraîner puis tester sur 9 tâches de FewCLUE et ZeroCLUE. Au 30 août 2022, UniMC a atteint la première place dans les listes FewCLUE et ZeroCLUE (Erlangshen sur la photo - UnifiedMC est UniMC). Nous avons proposé une nouvelle solution Zero-shot. aux tâches NLU dans des scénarios, en utilisant uniquement des centaines de millions de paramètres peut vaincre un grand modèle complexe comportant mille fois plus de paramètres.

De plus, nous n’introduisons pratiquement aucune information artificielle. Et cela résout le problème de l'incohérence entre la pré-formation et le réglage fin des modèles de type BERT, et notre formation et nos prévisions sont cohérentes. Nous pouvons même effectuer une formation et plusieurs prédictions sans tir, ce qui permet de réduire considérablement les coûts de puissance de calcul. Actuellement, l'équipe IDEA Fengshenban a lancé plus de 70 grands modèles pré-entraînés.

Modèle : https://huggingface.co/IDEA-CCNL

Papier global Fengshenbang (bilingue chinois et anglais) : https://arxiv.org/abs/2209.02970

Page d'accueil de Fengshenbang : https://github.com/IDEA-CCNL/Fengshenbang-LM

Quote

[1]Triangle impossible : quelle est la prochaine étape pour les modèles linguistiques pré-entraînés ?https : //readpaper.com/paper/4612531641570566145

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Will R.E.P.O. Vous avez un jeu croisé?

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7552

Tutoriel CakePHP

1382

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. May 07, 2024 pm 04:13 PM

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao Apr 09, 2024 am 11:52 AM

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Apr 01, 2024 pm 07:46 PM

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! May 06, 2024 pm 04:13 PM

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye Apr 26, 2024 am 11:37 AM

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

$Les dernières nouvelles de l'Université d'Oxford ! Mickey : correspondance d'images 2D en 3D SOTA ! (CVPR\'24)$ Les dernières nouvelles de l'Université d'Oxford ! Mickey : correspondance d'images 2D en 3D SOTA ! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Lien du projet écrit devant : https://nianticlabs.github.io/mickey/ Étant donné deux images, la pose de la caméra entre elles peut être estimée en établissant la correspondance entre les images. En règle générale, ces correspondances sont 2D à 2D et nos poses estimées sont à échelle indéterminée. Certaines applications, telles que la réalité augmentée instantanée, à tout moment et en tout lieu, nécessitent une estimation de pose des métriques d'échelle, elles s'appuient donc sur des estimateurs de profondeur externes pour récupérer l'échelle. Cet article propose MicKey, un processus de correspondance de points clés capable de prédire les correspondances métriques dans l'espace d'une caméra 3D. En apprenant la correspondance des coordonnées 3D entre les images, nous sommes en mesure de déduire des métriques relatives.

See all articles