


Brisant le triangle impossible et rivalisant avec 540 milliards de modèles, l'équipe IDEA Fengshen List n'atteint l'apprentissage SOTA sans échantillon qu'avec 200 millions de modèles
Depuis l'avènement de GPT-3, qui a démontré la puissance de centaines de milliards de modèles, les tâches de PNL se sont heurtées au triangle impossible de l'échelle, des échantillons et du réglage fin des performances. Comment un modèle de langage avec moins d'un milliard de paramètres peut-il atteindre les performances Few-Shot (ou même Zero-shot) et de réglage fin de SOTA ? Devons-nous disposer de centaines de milliards de paramètres et supporter des invites instables pour résoudre le scénario du zéro tir ? Dans cet article, l'équipe Fengshenbang de l'IDEA Research Institute présente un nouvel UniMC « phénoménologique », qui peut atteindre un SOTA zéro avec seulement 200 millions de paramètres. Les travaux connexes ont été acceptés par EMNLP 2022.
a souligné dans un article [1] cette année que depuis que la technologie de pré-formation a été proposée, il existe un triangle impossible dans le monde de la PNL (comme le montre la figure 1 ci-dessous), c'est-à-dire qu'un modèle ne peut pas satisfaire simultanément :
- Taille de modèle moyenne (moins de 1 milliard) ;
- Performances Few-Shot (ou même Zero-shot) de SOTA ;
- Performances de réglage fin de SOTA.
Figure 1
La raison pour laquelle le triangle impossible existe est que le nombre de paramètres du modèle pré-entraîné actuel n'atteint qu'un certain ordre de grandeur, et l'utilisation de l'apprentissage des indices peut refléter la puissante performance de quelques tirs nuls.
L'article récemment publié par notre équipe de Fengshenbang et inclus dans l'EMNLP 2022 : "Zero-Shot Learners for Natural Language Understanding via a Unified Multiple Choice Perspective" brise cette "malédiction" et fournit une solution flexible et efficace. L'UniMC proposé dans notre article possède un très petit nombre de paramètres de modèle (seulement 100 millions de niveaux) et les capacités de réglage fin de SOTA. Il possède également les performances Few/Zero de SOTA (comparables aux 540 milliards de PaLM-Shot). .
- Adresse papier : https://arxiv.org/abs/2210.08590
- Adresse open source modèle : https://github.com/IDEA-CCNL/Fengshenbang - LM/tree/main/fengshen/examples/unimc/ Contexte technique
La raison est que lors de l'utilisation de PMLM, nous devons ajouter une couche MLP par-dessus pour des tâches spécifiques, comme le montre la figure 2(c). De plus, cette couche MLP ajoutera des paramètres supplémentaires, ce qui fait que cette méthode choisit uniquement une initialisation aléatoire face à des scénarios sans tir, et il n'y a aucun moyen d'obtenir un résultat raisonnable. De plus, dans le scénario de réglage fin, l'ajout d'une couche MLP rendra également impossible le transfert entre différentes tâches (par exemple, il est impossible de transférer entre des tâches à 2 et 3 classifications).
Pour les scénarios Zero-shot, l'approche dominante de ces dernières années consiste à utiliser des dizaines, voire des centaines de milliards de modèles de langage pré-entraînés (PLM) pour convertir uniformément les tâches NLU en tâches de génération de texte. être construit manuellement ou manuellement Le verbaliseur est conçu de manière à ce que de grands modèles puissent être appliqués à des tâches sans tir, comme le montre la figure 2 (a). De plus, dans l'article FLAN, un grand nombre de modèles construits artificiellement sont utilisés pour unifier différentes tâches, de sorte que la connaissance d'autres tâches puisse être transférée à des tâches spécifiques, comme le montre la figure 2 (b). Cependant, un tel modèle génératif présente les inconvénients suivants :
Et nous avons proposé la méthode UniMC dans la figure 2(d), qui évite les problèmes ci-dessus et atteint SOTA ou des performances similaires aux modèles les plus avancés dans plusieurs tâches chinoises et anglaises. Figure 2 Idée de modèle La plupart des tâches NLU sont basées sur des étiquettes, et la génération de modèles nécessite La génération d'étiquettes va sans aucun doute augmenter la difficulté de la tâche et le coût d’apprentissage du modèle. Pour de nombreuses tâches basées sur des étiquettes, il suffit généralement de donner le texte d'entrée et la probabilité que le texte de sortie appartienne à chaque étiquette. Partant de cette idée, nous transformons la tâche NLU en tâche à choix multiples (Multiple-Choice). Autrement dit, étant donné le texte, les questions et les options, affichez la probabilité de chaque option sans générer les options. Sur cette base, nous proposons un nouveau concept : phénomène du modèle. Les expressions de modèle existantes ajoutent toujours une certaine couche ultérieurement, comme une couche de classification. Alternativement, le phénotype du modèle GPT généré consiste à exploiter la connaissance du modèle via Prompt. Le schéma UniMC que nous avons proposé ne nécessite l'introduction d'aucune couche supplémentaire dans le PMLM et exploite un autre phénotype de PMLM. Dans cet article, nous choisissons ALBERT comme réseau PMLM de base. Format uniforme à choix multiples Comme le montre la figure 3, nous espérons convertir toutes les tâches NLU basées sur des étiquettes en un format MC (à choix multiples) unifié. Notre philosophie est d'ajouter le moins d'informations humaines possible. Figure 3 Plus précisément, nous avons effectué les deux étapes suivantes : Avantages : Une seule invite d'option est conçue, et une ou aucune invite de question est conçue. Structure du modèle La structure d'UniMC est illustrée dans la figure 4 ci-dessous, qui utilise une structure d'encodage automatique similaire à BERT. Le processus principal est que nous unifions d'abord les entrées des différentes tâches et limitons le flux d'informations d'entrée. Après PMLM, nous utilisons O-MLM, OP et MLM pour la formation MC, et enfin O-MLM et OP pour la prédiction du tir zéro. . Ensuite, je vais détailler notre solution étape par étape. Figure 4 Entrée Entrée Figure 5 Le contenu de la zone de la zone de ligne continue rouge. Avant d'entrer dans UniMC, il doit être traité et transformé au format de jeton unique d'UniMC. Afin d'améliorer l'efficacité du calcul, nous associons directement toutes les options avec des questions et du texte, c'est-à-dire [Options, Question, Passage]. Et on insère un jeton spécial devant chaque option, [O-MASK], pour indiquer oui ou non (sélectionner cette option ou non). (Remarque : afin d'améliorer la réutilisabilité, nous avons réutilisé le jeton [MASK]. Comme le montre la figure 5, le contenu de la zone verte en pointillés. Nous devons considérer qu'il y a trop de sources d'informations d'entrée, y compris informations sur les options, informations sur les questions et informations sur les segments de texte. Les informations entre elles s'influenceront mutuellement, nous espérons donc isoler différentes informations. Par exemple, si nous pouvons voir d'autres options lors de la saisie, la difficulté de cette question sera réduite et le modèle. sera inerte. Nous avons donc pris en compte les considérations suivantes : Comment le modèle réalise-t-il les questions à choix multiples ? (O-MLM et OP) Comme le montre la figure 6, nous utilisons les tâches O-MLM et OP pour permettre au modèle de « sélectionner » le La réponse O-MASK est entièrement héritée du jeton MASK (en particulier, afin de ne pas ajouter de paramètres supplémentaires et en utilisant pleinement les connaissances acquises par le modèle lors de la phase de pré-formation non supervisée, nous avons réutilisé les paramètres de la tête MaskLM) . La seule différence est qu'il est masqué à 100%. Le but de la tâche O-MLM est de faire décoder O-. Le rôle de la tâche OP est de prédire la réponse à partir du « oui » de chaque option. Plus précisément, nous prenons chaque option [O-MASK] Effectuons un softmax sur le logit de la sortie « oui » pour obtenir la probabilité de chacune. et choisissez l'option avec la probabilité la plus élevée comme réponse prédite. Traitement de plusieurs tâches MC en un seul lot Comme le montre la figure 7, nous espérons mettre plusieurs ensembles de données MC dans un seul lot, ce qui peut améliorer les capacités. du modèle et le rendre plus unifié (Unifié). Lors du traitement par lots, nous avons découvert un problème : que se passe-t-il s'il y a des échantillons avec différentes options dans un lot Nous avons donc conçu une méthode de masque logit pour attribuer directement l'infini négatif à non pertinent ? jetons devant la sortie. En additionnant les valeurs prédites, nous pouvons éliminer l'influence des autres jetons sur O-MASK lors du calcul du softmax. De plus, différents nombres de questions à choix multiples peuvent être traités uniformément dans un seul lot. Figure 7 Formation et prédiction du modèle Différent du réglage des instructions de FLAN, nous nous entraînons uniquement sur l'ensemble de données MC. Il s'agit principalement de permettre au modèle d'apprendre à poser des questions à choix multiples, et l'ensemble de données MC a un certain degré de polyvalence, par exemple. Les ensembles de données peuvent être déterminés par le nombre d'étiquettes inégales. Figure 8 Inférence zéro-shot Fait intéressant, nous pouvons constater que ces deux tâches peuvent être effectuées en deux étapes : Entraînement et inférence zéro-shot Avoir une cohérence. En effet, nous utilisons deux tâches, O-MLM et OP, pour permettre au modèle de répondre à des questions à choix multiples. Et depuis que nous avons abandonné la couche de classification, tous les paramètres peuvent être réutilisés, activant ainsi la capacité Zero-shot du PMLM. Figure 9 Scénario anglais Nous avons collecté 14 tâches à choix multiples pour la pré-formation, puis avons effectué d'autres tâches NLU pour le tir zéro Tests de performances. Dans 4 tâches NLI, UniMC atteint SOTA et dépasse le modèle PaLM à 540 milliards de paramètres. Figure 10 Et nous avons battu le réseau avec GPT-2 et GPT-3 comme épine dorsale sur la tâche de classification. Pour la tâche très difficile de Dbpedia, jusqu'à 13 catégories, une précision même ultra-élevée de 88,9 % peut être obtenue. Figure 11 Afin d'explorer la généralisation de l'UNIMC, nous l'avons comparé avec FLAN. Comme on peut le constater, notre UniMC peut surpasser ou se rapprocher du FLAN dans presque toutes les tâches. Figure 12 Scène chinoise Dans la scène chinoise, nous avons collecté 40 ensembles de données supervisés et les avons uniformément construits sous forme de formulaires de tâches MC pour effectuer des expériences sur le modèle UniMC. -s'entraîner puis tester sur 9 tâches de FewCLUE et ZeroCLUE. Au 30 août 2022, UniMC a atteint la première place dans les listes FewCLUE et ZeroCLUE (Erlangshen sur la photo - UnifiedMC est UniMC). Nous avons proposé une nouvelle solution Zero-shot. aux tâches NLU dans des scénarios, en utilisant uniquement des centaines de millions de paramètres peut vaincre un grand modèle complexe comportant mille fois plus de paramètres. De plus, nous n’introduisons pratiquement aucune information artificielle. Et cela résout le problème de l'incohérence entre la pré-formation et le réglage fin des modèles de type BERT, et notre formation et nos prévisions sont cohérentes. Nous pouvons même effectuer une formation et plusieurs prédictions sans tir, ce qui permet de réduire considérablement les coûts de puissance de calcul. Actuellement, l'équipe IDEA Fengshenban a lancé plus de 70 grands modèles pré-entraînés. Quote [1]Triangle impossible : quelle est la prochaine étape pour les modèles linguistiques pré-entraînés ?https : //readpaper.com/paper/4612531641570566145
UniMC (un nouveau phénotype de modèle)
.
Performance UniMC
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

Lien du projet écrit devant : https://nianticlabs.github.io/mickey/ Étant donné deux images, la pose de la caméra entre elles peut être estimée en établissant la correspondance entre les images. En règle générale, ces correspondances sont 2D à 2D et nos poses estimées sont à échelle indéterminée. Certaines applications, telles que la réalité augmentée instantanée, à tout moment et en tout lieu, nécessitent une estimation de pose des métriques d'échelle, elles s'appuient donc sur des estimateurs de profondeur externes pour récupérer l'échelle. Cet article propose MicKey, un processus de correspondance de points clés capable de prédire les correspondances métriques dans l'espace d'une caméra 3D. En apprenant la correspondance des coordonnées 3D entre les images, nous sommes en mesure de déduire des métriques relatives.
