Maison > Périphériques technologiques > IA > Nouveau travail de Jeff Dean et d'autres : en regardant les modèles de langage sous un autre angle, l'échelle n'est pas assez grande et ne peut pas être découverte

Nouveau travail de Jeff Dean et d'autres : en regardant les modèles de langage sous un autre angle, l'échelle n'est pas assez grande et ne peut pas être découverte

王林
Libérer: 2023-04-14 12:52:03
avant
1408 Les gens l'ont consulté

​Ces dernières années, les modèles linguistiques ont eu un impact révolutionnaire sur le traitement du langage naturel (NLP). Il est connu que l’extension des modèles de langage, tels que les paramètres, peut conduire à de meilleures performances et à une meilleure efficacité des échantillons sur une gamme de tâches NLP en aval. Dans de nombreux cas, l’impact de la mise à l’échelle sur les performances peut souvent être prédit par les lois de mise à l’échelle, et la plupart des chercheurs ont étudié des phénomènes prévisibles.

Au contraire, 16 chercheurs dont Jeff Dean, Percy Liang, etc. ont collaboré à l'article "Emergent Abilities of Large Language Models". Ils ont discuté du phénomène d'imprévisibilité des grands modèles et l'ont appelé l'émergence de grands modèles de langage. . Capacités émergentes. Ce qu'on appelle l'émergence signifie que certains phénomènes n'existent pas dans le modèle plus petit mais existent dans le modèle plus grand. Ils pensent que cette capacité du modèle est émergente.

L'émergence en tant qu'idée est discutée depuis longtemps dans des domaines tels que la physique, la biologie et l'informatique. Cet article commence par une définition générale de l'émergence, adaptée des recherches de Steinhardt et ancrée dans 1972. Un article intitulé Plus. Is Different du prix Nobel et physicien Philip Anderson.

Cet article explore l'émergence de la taille du modèle, mesurée par les calculs d'entraînement et les paramètres du modèle. Plus précisément, cet article définit les capacités émergentes des grands modèles de langage comme des capacités qui ne sont pas présentes dans les modèles à petite échelle mais sont présentes dans les modèles à grande échelle ; par conséquent, les modèles à grande échelle ne peuvent pas être prédits en extrapolant simplement les améliorations de performances des modèles à petite échelle ; maquettes . Cette étude examine les capacités émergentes des modèles observés dans une série de travaux antérieurs et les classe en paramètres tels que le repérage à petite échelle et le repérage amélioré.

Cette capacité émergente du modèle inspire les recherches futures sur les raisons pour lesquelles ces capacités sont acquises et si des échelles plus grandes acquièrent davantage de capacités émergentes, et souligne l'importance de cette recherche.

Nouveau travail de Jeff Dean et dautres : en regardant les modèles de langage sous un autre angle, léchelle nest pas assez grande et ne peut pas être découverte

Adresse papier : https://arxiv.org/pdf/2206.07682.pdf

Petit exemple de tâche d'incitation

Cet article discute d'abord de la capacité émergente dans le paradigme d'incitation. Par exemple, dans l'invite GPT-3, étant donné une invite de tâche de modèle de langage pré-entraînée, le modèle peut compléter la réponse sans formation supplémentaire ni mise à jour progressive des paramètres. De plus, Brown et al. La figure 1 montre un exemple d'invite.

Nouveau travail de Jeff Dean et d'autres : en regardant les modèles de langage sous un autre angle, l'échelle n'est pas assez grande et ne peut pas être découverteNouveau travail de Jeff Dean et dautres : en regardant les modèles de langage sous un autre angle, léchelle nest pas assez grande et ne peut pas être découverte

Lorsque le modèle a des performances stochastiques et a une certaine échelle, il peut effectuer des tâches via de petits exemples d'invites. À ce moment, la capacité émergente apparaîtra, et les performances du modèle seront alors beaucoup plus élevées que. performances aléatoires. La figure ci-dessous montre les 8 capacités émergentes de 5 séries de modèles de langage (LaMDA, GPT-3, Gopher, Chinchilla et PaLM).

Nouveau travail de Jeff Dean et dautres : en regardant les modèles de langage sous un autre angle, léchelle nest pas assez grande et ne peut pas être découverte

BIG-Bench : les figures 2A-D représentent quatre tâches d'invite émergentes en quelques étapes de BIG-Bench, une suite de plus de 200 critères d'évaluation de modèles de langage. La figure 2A montre un test arithmétique qui teste l'addition et la soustraction de nombres à 3 chiffres et la multiplication de nombres à 2 chiffres. Le tableau 1 donne les fonctionnalités les plus émergentes de BIG-Bench.

Nouveau travail de Jeff Dean et dautres : en regardant les modèles de langage sous un autre angle, léchelle nest pas assez grande et ne peut pas être découverte

Stratégie de pourboire améliorée

Actuellement, bien que les indices sur petits échantillons soient le moyen le plus courant d'interagir avec de grands modèles de langage, des travaux récents ont proposé plusieurs autres indices et stratégies de réglage fin pour améliorer davantage les capacités des modèles de langage. Cet article considère également qu’une technologie est une capacité émergente si elle ne montre aucune amélioration ou si elle est nuisible avant d’être appliquée à un modèle suffisamment grand.

Raisonnement en plusieurs étapes : les tâches de raisonnement, en particulier celles impliquant un raisonnement en plusieurs étapes, ont toujours été un grand défi pour les modèles de langage et les modèles PNL. Une stratégie d'incitation récente appelée chaîne de pensée permet aux modèles de langage de résoudre ce type de problème en les guidant pour générer une série d'étapes intermédiaires avant de donner une réponse finale. Comme le montre la figure 3A, lors de la mise à l'échelle jusqu'à 1 023 FLOP d'entraînement (environ 100 B de paramètres), l'invite de la chaîne de pensée n'a surpassé que l'invite standard, sans étapes intermédiaires.

Instruction (Instruction suivante) : Comme le montre la figure 3B, Wei et al. ont constaté que lorsque le FLOP d'entraînement est de 7·10^21 (paramètres 8B) ou moins, la technique de réglage fin des instructions nuira aux performances du modèle. les performances peuvent être améliorées en étendant les FLOP d'entraînement à 10 ^ 23 (~ 100B de paramètres).

Exécution du programme : comme le montre la figure 3C, dans l'évaluation dans le domaine de l'addition de 8 bits, l'utilisation du bloc-notes ne permet que ∼9 · 10^19 FLOP d'entraînement (paramètres 40 M) ou un modèle plus grand. La figure 3D montre que ces modèles peuvent également se généraliser à l'addition de 9 bits hors domaine, qui se produit dans ∼1,3 · 10 ^ 20 FLOP d'entraînement (100 millions de paramètres).

Nouveau travail de Jeff Dean et dautres : en regardant les modèles de langage sous un autre angle, léchelle nest pas assez grande et ne peut pas être découverte

Cet article traite de la puissance émergente des modèles de langage, où jusqu'à présent des performances significatives n'ont été observées qu'à certaines échelles de calcul. Cette capacité émergente des modèles peut couvrir une variété de modèles de langage, de types de tâches et de scénarios expérimentaux. L’existence de cette émergence signifie qu’une mise à l’échelle supplémentaire peut étendre davantage les capacités des modèles linguistiques. Cette capacité est le résultat d’extensions de modèles de langage récemment découvertes. La manière dont elles sont apparues et la question de savoir si davantage d’extensions apporteront davantage de capacités émergentes pourraient être d’importantes orientations de recherche futures dans le domaine du PNL.

Pour plus d'informations, veuillez vous référer au document original.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal