Les paramètres sont légèrement améliorés, et l'indice de performance explose ! Google : les grands modèles de langage cachent des

Table des matières

La capacité magique "émergente"

Tâches d'invite "d'urgence"

Stratégies d'invite « émergentes »

L'importance de l'étude des capacités « émergentes »

Maison

Périphériques technologiques

Les paramètres sont légèrement améliorés, et l'indice de performance explose ! Google : les grands modèles de langage cachent des « compétences mystérieuses »

王林

Apr 11, 2023 pm 11:16 PM

谷歌研究

Parce qu'ils peuvent faire des choses pour lesquelles ils n'ont pas été formés, les grands modèles de langage semblent avoir une sorte de magie et sont donc devenus le centre du battage médiatique et de l'attention des médias et des chercheurs.

Lors de l'expansion d'un grand modèle de langage, de nouvelles capacités qui ne sont pas disponibles dans les modèles plus petits apparaîtront occasionnellement. Cet attribut similaire à la « créativité » est appelé capacité « émergente », ce qui représente un pas vers l'intelligence artificielle générale.

Maintenant, des chercheurs de Google, Stanford, Deepmind et de l'Université de Caroline du Nord explorent la capacité « émergente » des grands modèles de langage.

Les paramètres sont légèrement améliorés, et lindice de performance explose ! Google : les grands modèles de langage cachent des « compétences mystérieuses »

Decoder invite DALL-E

La capacité magique "émergente"

Le traitement du langage naturel (NLP) a été révolutionné par des modèles de langage entraînés sur de grandes quantités de données textuelles. La mise à l’échelle des modèles de langage améliore souvent les performances et l’efficacité des échantillons sur une gamme de tâches NLP en aval.

Dans de nombreux cas, nous pouvons prédire les performances d'un grand modèle de langage en déduisant les tendances de performances de modèles plus petits. Par exemple, l’effet de l’échelle sur la perplexité du modèle de langage a été démontré sur plus de sept ordres de grandeur.

Cependant, les performances sur certaines autres tâches ne se sont pas améliorées de manière prévisible.

Par exemple, l'article GPT-3 montre que la capacité du modèle de langage à effectuer une addition à plusieurs chiffres a une courbe d'échelle plate pour les modèles de 100 M à 13 B de paramètres, ce qui est à peu près aléatoire, mais entraîne une augmentation des performances à un moment donné. nœud.

Les paramètres sont légèrement améliorés, et lindice de performance explose ! Google : les grands modèles de langage cachent des « compétences mystérieuses »

Compte tenu de l'utilisation croissante des modèles linguistiques dans la recherche en PNL, il est important de mieux comprendre ces capacités qui peuvent surgir de manière inattendue.

Dans un article récent « Pouvoir émergent des grands modèles de langage » publié dans Machine Learning Research (TMLR), les chercheurs ont montré des dizaines d'exemples de pouvoir « émergent » généré par des modèles de langage étendus.

L'existence de cette capacité « émergente » soulève la question de savoir si une mise à l'échelle supplémentaire peut élargir davantage la gamme des capacités du modèle de langage.

Les paramètres sont légèrement améliorés, et lindice de performance explose ! Google : les grands modèles de langage cachent des « compétences mystérieuses »

Certaines méthodes d'indication et de réglage fin ne produiront des améliorations que dans des modèles plus grands

Tâches d'invite "d'urgence"

Tout d'abord, nous discutons de "l'urgence" qui peut se produire dans la capacité des tâches d'invite.

Dans ce type de tâche, un modèle de langage pré-entraîné est invité à effectuer la tâche de prédiction du mot suivant et exécute la tâche en complétant la réponse.

Sans ajustement supplémentaire, les modèles de langage peuvent souvent effectuer des tâches non vues lors de la formation.

Les paramètres sont légèrement améliorés, et lindice de performance explose ! Google : les grands modèles de langage cachent des « compétences mystérieuses »

Lorsqu'une tâche passe de manière imprévisible d'une performance aléatoire à une performance supérieure à l'aléatoire à un certain seuil d'échelle, nous l'appelons une tâche « émergente ».

Ci-dessous, nous montrons trois exemples de tâches rapides avec des performances « émergentes » : arithmétique en plusieurs étapes, passer un examen de niveau universitaire et identifier le sens voulu d'un mot.

Dans chaque cas, les modèles de langage fonctionnent mal, avec peu de dépendance à la taille du modèle, jusqu'à ce qu'un certain seuil soit atteint - là où leurs performances augmentent.

Les paramètres sont légèrement améliorés, et lindice de performance explose ! Google : les grands modèles de langage cachent des « compétences mystérieuses »

Pour les modèles d'échelle suffisante, les performances sur ces tâches ne deviennent que non aléatoires - par exemple, les tâches NLU arithmétiques et multitâches s'entraînent avec des opérations en virgule flottante par seconde (FLOP) dépassant 10 ^ 22, contexte Le FLOP d'entraînement des mots de la tâche dépasse 10 à la puissance 24.

Stratégies d'invite « émergentes »

Le deuxième type de capacités « émergentes » inclut des stratégies d'invite qui améliorent les capacités du modèle de langage.

La stratégie d'incitation est un vaste paradigme d'incitation qui peut être appliqué à une gamme de tâches différentes. Ils sont considérés comme « émergents » lorsqu’ils échouent pour des modèles de petite taille et ne peuvent être utilisés que par des modèles suffisamment grands.

L'incitation par chaîne de pensée est un exemple typique de stratégie d'incitation « émergente », où le modèle d'incitation génère une série d'étapes intermédiaires avant de donner la réponse finale.

Les invites de chaîne de pensée permettent aux modèles de langage d'effectuer des tâches qui nécessitent un raisonnement complexe, telles que des problèmes de mots mathématiques en plusieurs étapes.

Il convient de mentionner que le modèle peut acquérir la capacité de raisonnement en chaîne de pensée sans formation explicite. La figure ci-dessous montre un exemple d'invite de chaîne de pensée.

Les paramètres sont légèrement améliorés, et lindice de performance explose ! Google : les grands modèles de langage cachent des « compétences mystérieuses »

Les résultats empiriques de l'invite de la chaîne de réflexion sont les suivants.

Les paramètres sont légèrement améliorés, et lindice de performance explose ! Google : les grands modèles de langage cachent des « compétences mystérieuses »

Pour les modèles plus petits, l'application de l'invite de chaîne de pensée ne surpasse pas l'invite standard, comme lorsqu'elle est appliquée à GSM8K, une référence difficile de problèmes de mots mathématiques.

Cependant, pour les grands modèles, les invites Thought Chain ont atteint un taux de résolution de 57 % sur GSM8K, améliorant considérablement les performances lors de nos tests.

L'importance de l'étude des capacités « émergentes »

Alors, quelle est l'importance de l'étude des capacités « émergentes » ?

Identifier les capacités « émergentes » dans les grands modèles de langage est la première étape pour comprendre ce phénomène et son impact potentiel sur les futures capacités des modèles.

Par exemple, étant donné que les capacités et les stratégies « émergentes » d'indications en quelques étapes ne sont pas explicitement codées dans la pré-formation, les chercheurs peuvent ne pas connaître toute l'étendue des capacités d'indications en quelques étapes des modèles de langage actuels.

En outre, la question de savoir si une expansion ultérieure donnera potentiellement des capacités « émergentes » à des modèles plus grands est également très importante.

Pourquoi la capacité « émergente » apparaît-elle ?
Lorsque certaines capacités émergeront, de nouvelles applications réelles des modèles de langage seront-elles débloquées ?
Étant donné que les ressources informatiques sont coûteuses, les capacités émergentes peuvent-elles être débloquées par d'autres méthodes sans augmenter l'évolutivité (comme une meilleure architecture de modèle ou des techniques de formation) ?

Les chercheurs affirment que ces problèmes ne sont pas encore connus.

Cependant, à mesure que le domaine de la PNL continue de se développer, il est très important d'analyser et de comprendre le comportement des modèles de langage, y compris les capacités « émergentes » produites par la mise à l'échelle.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Commandes de chat et comment les utiliser

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7536

Tutoriel CakePHP

1379

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment commenter Deepseek Feb 19, 2025 pm 05:42 PM

Deepseek est un puissant outil de récupération d'informations. .

Comment rechercher Deepseek Feb 19, 2025 pm 05:39 PM

Deepseek est un moteur de recherche propriétaire qui ne recherche que dans une base de données ou un système spécifique, plus rapide et plus précis. Lorsque vous l'utilisez, il est conseillé aux utilisateurs de lire le document, d'essayer différentes stratégies de recherche, de demander de l'aide et des commentaires sur l'expérience utilisateur afin de tirer le meilleur parti de leurs avantages.

Sesame Open Door Exchange Page d'enregistrement de page Enregistrement Gate Trading App The Registration Site Web Feb 28, 2025 am 11:06 AM

Cet article présente le processus d'enregistrement de la version Web de Sesame Open Exchange (GATE.IO) et l'application Gate Trading en détail. Qu'il s'agisse de l'enregistrement Web ou de l'enregistrement de l'application, vous devez visiter le site Web officiel ou l'App Store pour télécharger l'application authentique, puis remplir le nom d'utilisateur, le mot de passe, l'e-mail, le numéro de téléphone mobile et d'autres informations et terminer la vérification des e-mails ou du téléphone mobile.

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Feb 21, 2025 pm 10:57 PM

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Bybit est un échange de crypto-monnaie qui fournit des services de trading aux utilisateurs. Les applications mobiles de l'échange ne peuvent pas être téléchargées directement via AppStore ou GooglePlay pour les raisons suivantes: 1. La politique de l'App Store empêche Apple et Google d'avoir des exigences strictes sur les types d'applications autorisées dans l'App Store. Les demandes d'échange de crypto-monnaie ne répondent souvent pas à ces exigences car elles impliquent des services financiers et nécessitent des réglementations et des normes de sécurité spécifiques. 2. Conformité des lois et réglementations Dans de nombreux pays, les activités liées aux transactions de crypto-monnaie sont réglementées ou restreintes. Pour se conformer à ces réglementations, l'application ByBit ne peut être utilisée que via des sites Web officiels ou d'autres canaux autorisés

Sesame Open Door Trading Platform Download Version mobile Gateio Trading Plateforme de téléchargement Adresse de téléchargement Feb 28, 2025 am 10:51 AM

Il est crucial de choisir un canal formel pour télécharger l'application et d'assurer la sécurité de votre compte.

Sesame Open Door Exchange Page Web Login Dernière version GATEIO Entrée du site officiel Mar 04, 2025 pm 11:48 PM

Une introduction détaillée à l'opération de connexion de la version Web Sesame Open Exchange, y compris les étapes de connexion et le processus de récupération de mot de passe.

Top 10 recommandé pour l'application de trading d'actifs numériques crypto (2025 Global Ranking) Mar 18, 2025 pm 12:15 PM

Cet article recommande les dix principales plates-formes de trading de crypto-monnaie qui méritent d'être prêtées, notamment Binance, Okx, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi et Xbit décentralisées. Ces plateformes ont leurs propres avantages en termes de quantité de devises de transaction, de type de transaction, de sécurité, de conformité et de fonctionnalités spéciales. Le choix d'une plate-forme appropriée nécessite une considération complète en fonction de votre propre expérience de trading, de votre tolérance au risque et de vos préférences d'investissement. J'espère que cet article vous aide à trouver le meilleur costume pour vous-même

Binance Binance Site officiel Dernière version Portail de connexion Feb 21, 2025 pm 05:42 PM

Pour accéder à la dernière version du portail de connexion du site Web de Binance, suivez simplement ces étapes simples. Accédez au site officiel et cliquez sur le bouton "Connectez-vous" dans le coin supérieur droit. Sélectionnez votre méthode de connexion existante. Entrez votre numéro de mobile ou votre mot de passe enregistré et votre mot de passe et complétez l'authentification (telles que le code de vérification mobile ou Google Authenticator). Après une vérification réussie, vous pouvez accéder à la dernière version du portail de connexion du site Web officiel de Binance.

See all articles