"Ne soyez pas trop superstitieux quant à l'émergence de grands modèles. Où y a-t-il tant de miracles dans le monde ?" Des chercheurs de l'Université de Stanford ont découvert que l'émergence de grands modèles est fortement liée aux indicateurs d'évaluation de la tâche, et Ce n'est pas le comportement de base du modèle sous des tâches et des échelles spécifiques. Après le passage à des indicateurs plus continus et plus fluides, le phénomène d'émergence sera moins évident et plus proche de la linéarité.
Récemment, alors que des chercheurs ont observé que les grands modèles de langage (LLM), tels que GPT, PaLM et LaMDA, peuvent présenter des « capacités émergentes » dans différentes tâches, ce terme a gagné une grande popularité dans le domaine de apprentissage automatique. Grande attention :
En fait, les caractéristiques émergentes des systèmes complexes ont toujours été au centre de la recherche en physique, en biologie, en mathématiques et dans d'autres disciplines.
Un point à noter est que le lauréat du prix Nobel, P.W. Anderson, a proposé « Plus c'est différent ». Selon ce point de vue, à mesure que la complexité du système augmente, de nouvelles propriétés peuvent se matérialiser, même si elles ne sont pas prédites (facilement ou pas du tout) à partir d'une compréhension quantitative précise des détails microscopiques du système.
Comment définir « émergence » dans le domaine des grands modèles ? Une façon familière de dire cela est « des capacités qui ne sont pas présentes dans les modèles à petite échelle mais sont présentes dans les modèles à grande échelle », et elles ne peuvent donc pas être prédites en extrapolant simplement les améliorations de performances à partir de modèles à petite échelle.
Cette capacité émergente a peut-être été découverte pour la première fois dans la famille GPT-3. Certains travaux ultérieurs ont mis en évidence ce constat : "Alors que les performances du modèle sont prévisibles à un niveau général, sur des tâches spécifiques, leurs performances apparaissent parfois à une échelle assez imprévisible." En fait, ces capacités émergentes sont si surprenantes que « l’expansion soudaine et spécifique des capacités » a été citée comme l’une des deux caractéristiques les plus déterminantes du LLM. En outre, des termes tels que « capacités révolutionnaires » et « virages serrés à gauche » sont également utilisés.
Pour résumer, nous pouvons identifier deux attributs décisifs de la capacité émergente du LLM :
1 L'acuité, de la « non-existence » à « l'existence » semble n'être qu'une transition instantanée ; . Imprévisibilité, transitions à des échelles de modèle apparemment imprévisibles.
Pendant ce temps, certaines questions restent sans réponse : qu'est-ce qui contrôle quelles capacités émergent ? Qu’est-ce qui contrôle l’émergence des capacités ? Comment pouvons-nous faire émerger plus rapidement les capacités souhaitables et garantir que les capacités moins souhaitables n’apparaissent jamais ?
Ces questions sont étroitement liées à la sécurité et à l'alignement de l'intelligence artificielle, car les capacités émergentes prédisent que des modèles plus grands pourraient un jour maîtriser des capacités dangereuses sans avertissement, ce que les humains ne souhaitent pas que cela se produise.
Dans un article récent, des chercheurs de l'Université de Stanford ont remis en question l'affirmation selon laquelle le LLM aurait des capacités émergentes.
Article : https://arxiv.org/pdf/2304.15004.pdf
Plus précisément, la question ici concerne la sortie du modèle en fonction de la taille du modèle dans une tâche spécifique émergente et les changements imprévisibles qui se produisent.
Leur scepticisme repose sur l'observation selon laquelle les modèles semblent émergents uniquement s'ils évoluent de manière non linéaire ou discontinue sur toute mesure du taux d'erreur par jeton du modèle. Par exemple, dans la tâche BIG-Bench, >92 % des capacités émergentes ont émergé sous ces deux métriques :
Cela soulève la possibilité d'une autre explication de l'origine de la capacité émergente des LLM : bien que le taux d'erreur par jeton de la famille de modèles soit fluide, soutenu et prévisible à mesure que la taille du modèle augmente. , mais des changements apparemment brusques et imprévisibles peuvent être provoqués par la méthode de mesure choisie par les chercheurs. Afin d'illustrer cette explication, les chercheurs l'ont utilisé comme un modèle mathématique simple et ont démontré comment il peut être reproduit quantitativement pour soutenir la capacité émergente du LLM. . Nous avons ensuite testé cette explication de trois manières complémentaires : 1 En utilisant la famille de modèles InstructGPT [24]/GPT-3 [3], selon l'hypothèse alternative formulée. , teste et confirme trois prédictions. 2. Réalisé une méta-analyse de certains résultats précédents et montré que dans l'espace des triplets familiaux de modèles métriques de tâches, les capacités qui émergent n'apparaissent que dans certains modèles. familles (colonnes) sur des métriques, pas sur des tâches. L’étude montre en outre qu’à sortie de modèle fixe, la modification de la métrique entraîne la disparition du phénomène d’émergence. 3. Induire délibérément des capacités émergentes pour de multiples tâches de vision (ce qui n'a jamais été démontré auparavant) dans des réseaux neuronaux profonds de différentes architectures pour montrer quelque chose comme comment les choix métriques induisent apparemment. capacités émergentes. Test 1 : Analyse de la série de modèles InstructGPT/GPT-3
# 🎜 🎜#Figure 2 : La capacité émergente des grands modèles de langage est une création de l'analyse des chercheurs, plutôt qu'un changement fondamental dans la sortie du modèle à mesure que l'échelle change. Comme expliqué mathématiquement et graphiquement dans la section 2, l'explication alternative proposée par les chercheurs prédit trois résultats : 1 À mesure que l'échelle du modèle augmente, si la métrique passe de. d'une métrique non linéaire/discontinue (Figure 2CD) à une métrique linéaire/continue (Figure 2EF), il devrait alors y avoir des améliorations de performances fluides, continues et prévisibles. 2. Pour les mesures non linéaires, si la résolution des performances du modèle mesurée est améliorée en augmentant la taille de l'ensemble de données de test, le modèle doit être lissé, continu, amélioration prévisible, et la proportion de cette amélioration correspond aux effets non linéaires prévisibles de la métrique choisie. 3. Quelle que soit la métrique utilisée, l'augmentation de la longueur de la chaîne cible devrait avoir un impact sur les performances du modèle en fonction de la longueur de la chaîne cible 1 : La précision est presque fonction géométrique, et la distance d'édition du jeton est une fonction presque quasi-linéaire. Afin de tester ces trois conclusions de prédiction, les chercheurs ont collecté les résultats de sortie de chaîne des modèles de la série InstructGPT/GPT-3 sur deux tâches arithmétiques : à l'aide de l'API OpenAI. Effectue une multiplication à deux échantillons entre deux entiers à deux chiffres et une addition à deux échantillons entre deux entiers à quatre chiffres. Figure 3 : À mesure que la taille du modèle augmente, la modification des métriques peut améliorer les performances. Apporter un changement fluide, continu et prévisible. De gauche à droite : modèle mathématique, 2 tâches de multiplication d'entiers à deux chiffres, 2 tâches d'addition d'entiers à quatre chiffres. Le graphique ci-dessus représente les performances du modèle mesurées à l'aide d'une métrique non linéaire telle que la précision, et vous pouvez voir que les performances de la famille de modèles InstructGPT/GPT-3 semblent plus nettes et moins prévisibles à des longueurs cibles plus longues. La figure ci-dessous représente les performances du modèle mesurées à l'aide d'une métrique linéaire (telle que la distance d'édition des jetons). Cette série de modèles montre des améliorations de performances fluides et prévisibles, ce qui est la capacité qui, selon les chercheurs, émerge. Prédiction : la puissance émergente disparaît sous les mesures linéaires Sur les tâches de multiplication et d'addition d'entiers, si la longueur de la chaîne cible est de 4 ou 5 chiffres et que la performance est mesurée avec précision (rangée supérieure de la figure 3), alors les modèles de la série GPT présenteront des capacités arithmétiques émergentes. Toutefois, si vous modifiez une métrique de non linéaire à linéaire tout en conservant la sortie du modèle fixe, les performances de la famille de modèles s'améliorent de manière fluide, continue et prévisible. Cela confirme les prédictions des chercheurs, suggérant ainsi que la source de précision et d'incertitude est la métrique choisie par les chercheurs, plutôt que les changements dans les résultats du modèle. On peut également voir que lors de l'utilisation de la distance d'édition de jeton, si la longueur de la chaîne cible passe de 1 à 5, il est prévisible que les performances de cette série de modèles diminueront et que la tendance à la baisse est presque quasi linéaire. ce qui est cohérent avec le troisième et le premier semestre des prévisions. Prédiction : la puissance émergente disparaît avec l'avènement d'évaluations à plus haute résolution Vient ensuite la deuxième prédiction : même avec des mesures non linéaires comme la précision, la précision des modèles plus petits ne sera pas non plus nulle, mais plutôt une valeur non nulle au-dessus du hasard, proportionnelle au choix d'utiliser la précision comme métrique. Afin d'améliorer la résolution et d'estimer plus précisément la précision du modèle, les chercheurs ont également généré d'autres données de test, puis ils ont découvert que : qu'il s'agisse de la tâche de multiplication d'entiers ou d'addition d'entiers, tous les InstructGPT/GPT-3 série Les modèles ont tous atteint une précision positive qui dépassait le hasard (Figure 4). Cela confirme la deuxième prédiction. On peut voir qu'à mesure que la longueur de la chaîne cible augmente, la précision diminue presque géométriquement avec la longueur de la chaîne cible, ce qui est cohérent avec la seconde moitié de la troisième prédiction. Ces résultats montrent également que la précision choisie par les chercheurs a certains effets (approximatifs) auxquels on devrait s'attendre, à savoir une décroissance presque géométrique avec la longueur de la cible.
Figure 4 : L'utilisation d'un plus grand nombre d'ensembles de données de test a permis d'obtenir de meilleures estimations de précision, révélant que les changements de performances sont fluides, continus et prévisibles. De gauche à droite : modèle mathématique, 2 tâches de multiplication d'entiers à deux chiffres, 2 tâches d'addition d'entiers à quatre chiffres. L'amélioration de la résolution en générant davantage de données de test révèle que les performances de la série de modèles InstructGPT/GPT-3 sont au-delà du hasard, même sur les mesures de précision, et que son amélioration dans les deux capacités émergentes est fluide. Les résultats de ces deux capacités émergentes, continus et prévisibles, sont qualitativement cohérents avec les modèles mathématiques. Étant donné que les modèles de la série GPT sont accessibles au public pour interrogation, ils peuvent être analysés. Cependant, d'autres modèles qui prétendent également avoir des capacités émergentes (tels que PaLM, Chinchilla, Gopher) ne sont pas accessibles au public et les résultats qu'ils génèrent ne sont pas publics, ce qui signifie que les chercheurs sont limités dans l'analyse des résultats publiés. Les chercheurs ont donné deux prédictions basées sur leurs propres hypothèses alternatives : Pour tester ces deux hypothèses, les chercheurs ont étudié les capacités censées émerger de la suite d'évaluation BIG-Bench, puisque les benchmarks de cette suite sont accessibles au public et bien documentés. Prédiction : les capacités émergentes devraient principalement apparaître sur des mesures non linéaires/discontinues Pour tester la première prédiction, les chercheurs ont analysé sur quels indicateurs différentes paires « séries de modèles de tâches » si des capacités émergentes émergeraient. Pour déterminer si un triplet « famille tâche-métrique-modèle » est susceptible de présenter des capacités émergentes, ils ont emprunté la définition présentée dans l'article « Au-delà du jeu d'imitation : Quantification et extrapolation des capacités des modèles de langage ». Laissez y_i ∈ R représenter les performances du modèle lorsque la taille du modèle est x_i ∈ R, et faites en sorte que x_i Étant donné que le score d'émergence indique uniquement la capacité à émerger, les chercheurs ont analysé plus en détail le triplet « série tâche-métrique-modèle » annoté manuellement dans l'article « 137 capacités émergentes de grands modèles de langage ». Les données annotées manuellement montrent que seules 4 des 39 mesures présentent des capacités émergentes (Figure 5B), et 2 d'entre elles représentent à elles seules plus de 92 % des capacités émergentes revendiquées (Figure 5C). Regroupement de sélections multiples et correspondance exacte des chaînes. Le regroupement à choix multiples n'est pas continu et la correspondance exacte des chaînes n'est pas linéaire (le changement dans la métrique de longueur cible est presque géométrique). Dans l’ensemble, ces résultats suggèrent que les capacités émergentes n’apparaissent que sur un très petit nombre de mesures non linéaires et/ou discontinues. Figure 5 : La capacité émergente n'apparaît que pour quelques mesures. (A) Sur les 39 mesures BIG-Bench que les gens préfèrent, les capacités émergentes peuvent apparaître sur seulement 5 mesures au maximum. (B) Les données annotées par l'homme de l'article cité montrent que seules 4 mesures des préférences des gens présentent un pouvoir émergent. (C) >92 % des capacités émergentes se produisent sur l'une des deux mesures : classement à choix multiples et correspondance exacte des chaînes. Prédiction : Si des mesures non linéaires/discontinues sont remplacées, la capacité émergente devrait être éliminée Pour la deuxième prédiction, les chercheurs ont analysé la capacité émergente d'annotation manuelle dans l'article cité ci-dessus. Ils se sont concentrés sur la famille LaMDA car ses sorties sont disponibles via BIG-Bench, alors que les sorties des autres familles de modèles ne le sont pas. Parmi les modèles LaMDA publiés, le plus petit comporte 2 milliards de paramètres, mais de nombreux modèles LaMDA dans BIG-Bench sont beaucoup plus petits, et les chercheurs ont déclaré que parce qu'ils ne pouvaient pas déterminer l'origine de ces modèles plus petits, ils n'ont pas été pris en compte dans l'analyse. . Dans l'analyse, les chercheurs ont identifié des tâches sur lesquelles LaMDA a démontré des capacités émergentes sur la mesure hiérarchique à choix multiples, puis ils ont demandé : LaMDA peut-il effectuer les mêmes tâches en utilisant une autre mesure BIG-Bench, le score Brier, démontre des capacités émergentes ? Le score de Brier est un ensemble de règles de notation strictement appropriées qui mesurent la prédiction de résultats mutuellement exclusifs ; pour la prédiction d'un résultat binaire, le score de Brier est simplifié à l'erreur quadratique moyenne entre le résultat et sa masse de probabilité prédite. Les chercheurs ont découvert que lorsque le classement à choix multiples métrique non continu devient le score Brier métrique continu (Figure 6), la capacité émergente de LaMDA disparaît. Cela illustre en outre que la cause de l'émergence de capacités n'est pas le changement essentiel dans le comportement du modèle à mesure que l'échelle augmente, mais l'utilisation de mesures discontinues. Figure 6 : La modification de la métrique BIG-Bench tout en maintenant la tâche et la famille de modèles constantes entraîne la disparition de la capacité d'émergence. Rangée supérieure : la famille de modèles LaMDA présente des capacités émergentes lors de l'utilisation d'une mesure discontinue (classement à choix multiples). Rangée suivante : lors de l'utilisation d'une métrique continue BIG-Bench (score Brier), la famille de modèles LaMDA n'est plus émergente sur la même tâche. Test 3 : Inciter DNN à avoir une capacité émergente pour le prouver, ont-ils montré ; comment faire en sorte que différentes architectures (entièrement connectées, convolutives, auto-attention) des réseaux de neurones profonds produisent des capacités émergentes. Les chercheurs se sont concentrés ici sur les tâches visuelles pour deux raisons. Premièrement, les gens se concentrent actuellement sur les capacités émergentes des modèles linguistiques à grande échelle, car pour les modèles visuels, un passage soudain de l’absence de capacité de modèle à la oui n’a pas encore été observé. Deuxièmement, certaines tâches de vision peuvent être résolues avec des réseaux de taille modeste, de sorte que les chercheurs peuvent créer une famille complète de modèles sur plusieurs ordres de grandeur. Le réseau convolutif a émergé avec la capacité de classer les chiffres manuscrits du MNIST Les chercheurs ont d'abord induit la mise en œuvre de la série de réseaux neuronaux convolutifs LeNet à émerger avec la capacité de classer, et l'ensemble de données de formation a été le Ensemble de données de chiffres manuscrits MNIST. Cette série montre une augmentation progressive de la précision des tests à mesure que le nombre de paramètres augmente (Figure 7B). Pour simuler la métrique de précision utilisée dans les articles sur l'émergence, la précision du sous-ensemble est utilisée ici : si le réseau classe correctement K données parmi K données de test (indépendantes), alors le réseau La précision du sous-ensemble est de 1, sinon elle est de 0. Sur la base de cette définition de la précision, à mesure que K augmente de 1 à 5, cette famille de modèles présente la capacité « d'émerger » pour classer correctement l'ensemble de chiffres MNIST, en particulier lorsqu'elle est combinée à un échantillonnage clairsemé de la taille du modèle (Fig. 7C). La capacité de classification émergente de cette série de convolutions est qualitativement cohérente avec la capacité émergente des articles publiés, tels que les résultats de la tâche de cartographie topographique de BIG-Bench (Figure 7A).
Figure 7 : Induire une capacité de classification MNIST émergente dans un réseau convolutif. (A) Capacités émergentes basées sur la tâche de cartographie du terrain BIG-Bench issue d'un article publié. (B) LeNet formé sur MNIST montre une augmentation prédictive et généralisée en forme de S de la précision des tests à mesure que le nombre de paramètres du modèle augmente. (C) Lorsque la précision est redéfinie comme classant correctement K sur K données de test indépendantes, cette métrique nouvellement définie induit un changement apparemment inattendu. Puissance de reconstruction émergente de l'autoencodeur non linéaire sur l'ensemble d'images naturelles CIFAR100 Souligner que la netteté de la métrique choisie par les chercheurs est responsable de la puissance émergente, et montrer que cette netteté Le degré est ne se limitant pas à des mesures telles que la précision. Les chercheurs ont également fait émerger l'auto-encodeur non linéaire peu profond (c'est-à-dire une seule couche cachée) formé sur l'ensemble d'images naturelles CIFAR100 avec la capacité de reconstruire l'entrée d'image. À cette fin, ils définissent délibérément une nouvelle métrique de discontinuité pour mesurer la capacité du modèle, qui est le nombre moyen de données de test avec des erreurs de reconstruction au carré inférieures à un seuil fixe c :
où I (・) est une variable indicatrice aléatoire et x^n est la reconstruction de x_n par l'auto-encodeur. Les chercheurs ont examiné le nombre d'unités de goulot d'étranglement dans l'auto-encodeur et ont constaté qu'à mesure que la taille du modèle augmente, l'erreur quadratique moyenne de reconstruction du réseau montre une tendance à la baisse douce (Figure 8B), mais si la métrique de reconstruction nouvellement définie est utilisée, pour le sélectionné c. La capacité de cette série d'auto-encodeurs à reconstruire cet ensemble de données est précise et presque imprévisible (Figure 8C). Ce résultat est qualitativement cohérent avec la capacité émergente dans les articles publiés, tels que la tâche des éléments périodiques (Figure 8A). .
Figure 8 : Induire des capacités de reconstruction émergentes dans les auto-encodeurs non linéaires peu profonds. (A) Capacités émergentes basées sur la tâche d’élément périodique BIG-Bench tirée d’un article publié. (B) Un auto-encodeur non linéaire peu profond formé sur CIFAR100 présente une erreur de reconstruction du carré moyen en baisse progressive. (C) Des changements imprévisibles sont induits à l’aide de la métrique de reconstruction nouvellement définie (équation 2). Autoregressive Transformer émerge avec des capacités de classification sur le jeu de caractères Omniglot Vient ensuite la capacité émergente de Transformer, qui utilise la méthode autorégressive pour classer les caractères manuscrits Omniglot. La configuration expérimentale utilisée par les chercheurs est similaire : l'image Omniglot est d'abord intégrée par une couche convolutive, puis le transformateur réservé au décodeur est saisi sous la forme d'une séquence de paires [image intégrée, étiquette de catégorie d'image], et l'objectif de formation de ceci Transformer doit prédire l’étiquette de catégorie Omniglot. Le chercheur a mesuré les performances de classification d'images sur une séquence de longueur L ∈ [1, 5], qui a également été mesurée par la précision du sous-ensemble : si toutes les images L sont classées correctement (Figure 9B), alors la précision du sous-ensemble est de 1, sinon elle est de 0. . Causal Transformer semble présenter des capacités émergentes dans la tâche de classer correctement les caractères manuscrits Omniglot (Figure 9C), un résultat qui est qualitativement cohérent avec les capacités émergentes dans les articles publiés, telles que la compréhension du langage multitâche à grande échelle (Figure 9A). Test 2 : Méta-analyse de l'émergence du modèle
Figure 9 : Induire des capacités de classification émergentes dans un transformateur autorégressif. (A) Capacités émergentes basées sur le benchmark MMLU dans un article publié. (B) À mesure que les paramètres du modèle augmentent, la précision du test du transformateur qui utilise la méthode autorégressive pour classer les chiffres manuscrits Omniglot montre également une augmentation. (C) Lorsque la précision est redéfinie comme la classification correcte de toutes les images d’une séquence, la métrique est plus difficile à prédire, ce qui semble indiquer l’induction d’une capacité émergente.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!