Comment la chaîne de pensée libère-t-elle les capacités cachées des modèles linguistiques ? Les dernières recherches théoriques révèlent le mystère qui se cache derrière-IA-php.cn

Maison

Comment la chaîne de pensée libère-t-elle les capacités cachées des modèles linguistiques ? Les dernières recherches théoriques révèlent le mystère qui se cache derrière

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 03, 2023 pm 04:49 PM

模型思维

L'un des phénomènes les plus mystérieux dans l'émergence des grands modèles est le Chain of Thought Tips (CoT), qui a montré des résultats étonnants, notamment dans la résolution de problèmes de raisonnement mathématique et de prise de décision. Quelle est l’importance du CoT ? Quel est le mécanisme de son succès ? Dans cet article, plusieurs chercheurs de l'Université de Pékin prouvent que CoT est indispensable pour réaliser l'inférence de grands modèles de langage (LLM) et révèlent comment CoT peut libérer l'énorme potentiel du LLM d'un point de vue théorique et expérimental.

Des recherches récentes ont montré que l'incitation par chaîne de pensée (CoT) peut améliorer considérablement les performances des grands modèles de langage (LLM) et est particulièrement adaptée au traitement de tâches complexes impliquant des mathématiques ou du raisonnement. Mais malgré de nombreux succès, les mécanismes derrière les CoT et la manière de libérer le potentiel des LLM restent insaisissables.

Récemment, une nouvelle étude de l'Université de Pékin a révélé le mystère derrière CoT d'un point de vue théorique. Le grand modèle de langage basé sur un transformateur est devenu un modèle universel dans le traitement du langage naturel, sur diverses tâches. Tous ont été largement utilisé. Les grands modèles traditionnels sont généralement mis en œuvre sur la base du paradigme autorégressif. Plus précisément, diverses tâches (telles que la traduction de texte, la génération de texte, la réponse à des questions, etc.) peuvent être uniformément considérées comme des problèmes de génération de séquences, dans lesquels la saisie de la question et la description. de la question sont codés ensemble dans une séquence de mots (jeton), appelée invite (invite) ; la réponse à la question peut être transformée en tâche de génération conditionnelle de mots suivants sur la base de l'invite ;

Comment la chaîne de pensée libère-t-elle les capacités cachées des modèles linguistiques ? Les dernières recherches théoriques révèlent le mystère qui se cache derrière

Un grand nombre d'études dans le domaine des grands modèles ont montré que des mots d'invite soigneusement conçus jouent un rôle crucial dans les performances du modèle. Il a été démontré que CoT améliore considérablement l'exactitude des réponses générées, notamment lorsqu'il s'agit de tâches liées à l'arithmétique ou au raisonnement. Comme le montre la figure ci-dessous, pour une tâche qui nécessite un raisonnement mathématique, les réponses directement générées par les grands modèles sont souvent fausses (figures a,b ci-dessous). Cependant, si vous modifiez les invites pour que le grand modèle génère toute la chaîne de réflexion (étapes de dérivation intermédiaires), vous pourrez éventuellement obtenir la bonne réponse (c, d ci-dessous).

En pratique, il existe deux manières courantes de mettre en œuvre l'invite de chaîne de pensée : la première consiste à ajouter une phrase spécifique à l'invite, telle que "Réfléchissons étape par étape" pour la déclencher (comme indiqué dans la figure c ci-dessus) ; l'autre consiste à permettre au grand modèle de simuler le processus de dérivation correspondant en fournissant un petit nombre d'exemples de démonstrations de chaînes de réflexion (comme le montre la figure d ci-dessus). Comment la chaîne de pensée libère-t-elle les capacités cachées des modèles linguistiques ? Les dernières recherches théoriques révèlent le mystère qui se cache derrière

Cependant, bien que CoT ait atteint des performances remarquables dans un grand nombre d'expériences, le mécanisme théorique qui le sous-tend reste un mystère. D’une part, les grands modèles présentent-ils effectivement des défauts théoriques inhérents lorsqu’ils répondent directement à des questions sur les mathématiques, le raisonnement, etc. ? D’un autre côté, pourquoi CoT peut-il améliorer les capacités des grands modèles sur ces tâches ? Cet article répond aux questions ci-dessus d’un point de vue théorique.

Plus précisément, les chercheurs étudient CoT du point de vue de la capacité d'expression du modèle : Pour les tâches mathématiques et les tâches générales de prise de décision, cet article étudie la capacité d'expression du modèle Transformer basé sur l'autorégression dans les deux aspects suivants : (1) Générer répond directement, et (2) générer des étapes de solution complètes à l’aide de CoT.

Comment la chaîne de pensée libère-t-elle les capacités cachées des modèles linguistiques ? Les dernières recherches théoriques révèlent le mystère qui se cache derrière CoT est la clé pour résoudre des problèmes mathématiques

Les grands modèles représentés par GPT-4 ont démontré des capacités mathématiques étonnantes. Par exemple, il peut résoudre correctement la plupart des problèmes de mathématiques au lycée et est même devenu un assistant de recherche pour les mathématiciens.

Afin d'étudier les capacités mathématiques des grands modèles, cet article a sélectionné deux tâches mathématiques très basiques mais essentielles : l'arithmétique et les équations (la figure suivante donne des exemples d'entrée et de sortie de ces deux tâches). Puisqu’il s’agit de composants fondamentaux pour résoudre des problèmes mathématiques complexes, en étudiant ces deux problèmes mathématiques fondamentaux, nous pouvons mieux comprendre les capacités des grands modèles sur des problèmes mathématiques généraux.

Comment la chaîne de pensée libère-t-elle les capacités cachées des modèles linguistiques ? Les dernières recherches théoriques révèlent le mystère qui se cache derrière

Les chercheurs ont d'abord examiné si Transformer pouvait fournir des réponses aux questions ci-dessus sans générer d'étapes intermédiaires. Ils ont considéré une hypothèse très cohérente avec la réalité : un transformateur de précision logarithmique, c'est-à-dire que chaque neurone du transformateur ne peut représenter qu'un nombre à virgule flottante de précision limitée (la précision est de log n bits), où n est la longueur maximale. de la phrase. Cette hypothèse est très proche de la réalité, par exemple dans GPT-3, la précision de la machine (16 ou 32 bits) est généralement bien inférieure à la longueur maximale de la phrase de sortie (2048).

Sous cette hypothèse, les chercheurs ont prouvé un résultat impossible : Pour un modèle de transformateur autorégressif avec une couche constante et une largeur de d, lors de la résolution des deux problèmes mathématiques ci-dessus en produisant directement des réponses, il est nécessaire d'utiliser extrêmement grand modèle largeur d. Plus précisément, d doit devenir plus grand que le polynôme à mesure que la longueur d'entrée n augmente.

La raison essentielle de ce résultat est qu'il n'existe pas d'algorithme parallèle efficace pour les deux problèmes ci-dessus, donc Transformer, en tant que modèle parallèle typique, ne peut pas les résoudre. L’article utilise la théorie de la complexité des circuits en informatique théorique pour prouver rigoureusement le théorème ci-dessus.

Et si le modèle ne génère pas la réponse directement, mais génère les étapes de dérivation intermédiaires sous la forme de la figure ci-dessus ? Les chercheurs ont en outre prouvé par construction que lorsque le modèle peut générer des étapes intermédiaires, un modèle de transformateur autorégressif de taille fixe (ne dépendant pas de la longueur d'entrée n) peut résoudre les deux problèmes mathématiques ci-dessus. En comparant les résultats précédents, on peut voir que l'ajout de CoT améliore considérablement la capacité d'expression des grands modèles. Les chercheurs ont en outre donné une compréhension intuitive de cela : en effet, l'introduction de CoT renverra continuellement les mots de sortie générés à la couche d'entrée, ce qui augmente considérablement la profondeur effective du modèle, le rendant proportionnel à la longueur de sortie de CoT. améliorant ainsi considérablement l'efficacité du modèle. La complexité parallèle de Transformer a été grandement améliorée.

CoT est la clé pour résoudre des problèmes généraux de prise de décision

En plus des problèmes mathématiques, les chercheurs ont également examiné la capacité de CoT à résoudre des tâches générales. Partant du problème de prise de décision, ils ont considéré un cadre général pour résoudre les problèmes de prise de décision, appelé programmation dynamique.

L'idée de base de la programmation dynamique (DP) est de décomposer un problème complexe en une série de sous-problèmes à petite échelle qui peuvent être résolus en séquence. La décomposition du problème garantit qu'il existe une interrelation (chevauchement) significative entre les différents sous-problèmes, de sorte que chaque sous-problème puisse être résolu efficacement en utilisant les réponses aux sous-problèmes précédents.

La sous-séquence ascendante la plus longue (LIS) et la résolution de la distance d'édition (ED) sont deux problèmes DP célèbres proposés dans le livre "Introduction aux algorithmes". Le tableau suivant répertorie les espaces d'état et les transitions de ces deux problèmes. de fonction.

Comment la chaîne de pensée libère-t-elle les capacités cachées des modèles linguistiques ? Les dernières recherches théoriques révèlent le mystère qui se cache derrière

Les chercheurs ont prouvé que le modèle de transformateur autorégressif peut produire une chaîne de pensée de programmation dynamique complète dans l'ordre de résoudre des sous-problèmes, de sorte qu'il puisse produire toutes les tâches qui peuvent être résolues par programmation dynamique Bonne réponse. De même, les chercheurs ont en outre démontré que les chaînes de pensée génératives sont nécessaires : pour de nombreux problèmes de programmation dynamique difficiles, un modèle Transformer à couche constante et de taille polynomiale ne peut pas directement produire la bonne réponse. L'article donne un contre-exemple au problème des tests d'appartenance à la grammaire sans contexte.

Expériences

Les chercheurs ont finalement conçu un grand nombre d'expériences pour vérifier la théorie ci-dessus, en considérant quatre tâches différentes : évaluer des expressions arithmétiques, résoudre des équations linéaires, résoudre la sous-séquence ascendante la plus longue et résoudre la distance d'édition.

Les résultats expérimentaux montrent que lorsqu'il est entraîné à l'aide de données CoT, un modèle de transformateur autorégressif à 3 couches a pu atteindre des performances presque parfaites sur toutes les tâches. Cependant, la sortie directe de la bonne réponse donne de mauvais résultats sur toutes les tâches (même avec des modèles plus profonds). Ce résultat démontre clairement la capacité du transformateur autorégressif à résoudre une variété de tâches complexes et démontre l'importance du CoT dans la résolution de ces tâches.

Comment la chaîne de pensée libère-t-elle les capacités cachées des modèles linguistiques ? Les dernières recherches théoriques révèlent le mystère qui se cache derrière

Les chercheurs ont également examiné si le modèle autorégressif appris pouvait être extrapolé davantage à des données plus longues. Ils ont construit un ensemble de données de formation CoT pour la tâche opérationnelle, où le nombre d'opérateurs variait de 1 à 15, et ont testé le modèle sur des expressions avec le nombre d'opérateurs n ∈ {16, 17, 18}. Les résultats sont présentés dans la figure 3 ci-dessous. Le modèle Transformer à trois couches du chercheur fonctionne toujours bien sur des séquences plus longues, ce qui indique que le modèle a effectivement appris dans une certaine mesure le mécanisme sous-jacent. Par conséquent, les chercheurs pensent que les modèles formés sur davantage de données de différentes longueurs peuvent éventuellement révéler les règles complètes de l’arithmétique.

Comment la chaîne de pensée libère-t-elle les capacités cachées des modèles linguistiques ? Les dernières recherches théoriques révèlent le mystère qui se cache derrière

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Will R.E.P.O. Vous avez un jeu croisé?

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7555

Tutoriel CakePHP

1382

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. May 07, 2024 pm 04:13 PM

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao Apr 09, 2024 am 11:52 AM

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Apr 01, 2024 pm 07:46 PM

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! May 06, 2024 pm 04:13 PM

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye Apr 26, 2024 am 11:37 AM

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

DualBEV : dépassant largement BEVFormer et BEVDet4D, ouvrez le livre ! Mar 21, 2024 pm 05:21 PM

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.

See all articles