Vous pouvez deviner des films basés sur des émoticônes. D'où vient la capacité « d'émergence

Table des matières

Émergence

En 2020, Dyer et d'autres chercheurs de Google Research ont prédit que les grands modèles de langage auraient des impacts transformateurs, mais quels seraient ces impacts reste une question ouverte. Par conséquent, ils ont demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et diverses afin de documenter les limites extérieures de ce que le suivi des LLM peut faire. L'effort, connu sous le nom de projet BIG-bench (Beyond the Imitation Game Benchmark), empruntant son nom au jeu d'imitation d'Alan Turing, a été conçu pour tester si les ordinateurs pouvaient répondre aux questions d'une manière humaine et convaincante. (Cela est devenu connu sous le nom de test de Turing.) Le groupe de recherche était particulièrement intéressé par des exemples de LLM acquérant soudainement des capacités nouvelles et sans précédent.

Capacités et défauts imprévisibles

Maison

Périphériques technologiques

Vous pouvez deviner des films basés sur des émoticônes. D'où vient la capacité « d'émergence » de ChatGPT ?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 04, 2023 pm 12:00 PM

chatgpt 预测

Maintenant que les grands modèles de langage comme ChatGPT sont suffisamment puissants, ils ont commencé à présenter un comportement surprenant et imprévisible.

Avant de présenter officiellement cet article, posons une question : quel film l'émoticône dans l'image ci-dessous décrit-elle ?

Vous pouvez deviner des films basés sur des émoticônes. Doù vient la capacité « démergence » de ChatGPT ?

Vous ne pourrez peut-être même pas deviner que le film représenté par ces quatre symboles est "Le Monde de Nemo". Cette tâche rapide était l'une des 204 tâches utilisées pour évaluer les grands modèles de langage (LLM) l'année dernière. Pour le modèle LLM le plus simple, la réponse donnée est quelque peu aléatoire, et on pense que ce film raconte l'histoire d'un homme ; pour le modèle de taille moyenne relativement complexe, la réponse donnée est "Le film Emoji". . Mais le modèle le plus complexe l'a bien deviné, donnant la réponse « Le Monde de Nemo ».

Ethan Dyer, informaticien chez Google, a déclaré : « Ce comportement du modèle est surprenant. Ce qui est encore plus surprenant, c'est que ces modèles n'utilisent que des instructions : c'est-à-dire qu'ils acceptent une chaîne de texte en entrée, puis prédisent ce qui va se passer ensuite. et Répétez ce processus encore et encore, en vous basant entièrement sur des statistiques. » Certains universitaires ont commencé à s'attendre à ce que la mise à l'échelle du modèle améliore les performances sur les tâches connues, mais ils ne s'attendaient pas à ce que ces modèles soient soudainement capables de gérer autant de nouvelles, tâches imprévisibles.

Une enquête récente menée par Ethan Dyer montre que le LLM peut créer des centaines de capacités « émergentes », c'est-à-dire la capacité des grands modèles à accomplir certaines tâches que les petits modèles ne peuvent pas accomplir. De toute évidence, la capacité de faire évoluer le modèle augmente, de la simple multiplication à la génération de code informatique exécutable en passant par le décodage de films basés sur des emojis. Une nouvelle analyse montre que pour certaines tâches et certains modèles, il existe un seuil de complexité au-dessus duquel les capacités du modèle montent en flèche. Cependant, les chercheurs ont également souligné l’impact négatif de la mise à l’échelle du modèle : à mesure que la complexité augmente, certains modèles présentent de nouveaux biais et inexactitudes dans leurs réponses.

Rishi Bommasani, un informaticien de l'Université de Stanford qui a aidé à dresser une liste de dizaines de modèles de comportements émergents l'année dernière, a déclaré : « Dans toute la littérature que je connais, il n'y a jamais eu de discussion sur les modèles de langage faisant ces choses. ." , qui comprend plusieurs comportements identifiés dans le projet d'Ethan Dyer. Aujourd’hui, la liste ne cesse de s’allonger.

Aujourd'hui, les chercheurs s'efforcent non seulement de déterminer les capacités d'émergence des grands modèles, mais également de comprendre pourquoi et comment ils se produisent, essentiellement en essayant de prédire l'imprévisibilité. Comprendre sa nature émergente peut révéler des réponses à des questions profondes liées à l'intelligence artificielle et à l'apprentissage automatique, par exemple si les modèles complexes font réellement quelque chose de nouveau ou s'ils deviennent simplement très bons en statistiques. De plus, cela peut aider les chercheurs à tirer parti des avantages potentiels et à réduire les risques émergents.

Émergence

Les biologistes, physiciens, écologistes et autres scientifiques utilisent le terme émergence pour décrire le comportement collectif auto-organisé qui se produit lorsqu'un grand nombre de choses agissent comme un tout. La combinaison d'atomes inanimés crée des cellules vivantes ; les molécules d'eau créent des vagues ; le spectacle naturel spectaculaire de volées d'étourneaux volant dans le ciel dans des formations en constante évolution mais reconnaissables fait bouger les muscles et battre les cœurs. Il est crucial que les capacités émergentes apparaissent dans des systèmes impliquant de nombreuses parties indépendantes. Mais les chercheurs n’ont pu documenter ce pouvoir émergent dans les LLM que récemment, car les modèles viennent tout juste de se développer à des échelles suffisamment grandes.

Les modèles linguistiques existent depuis des décennies. Jusqu’il y a cinq ans environ, les modèles les plus puissants reposaient sur des réseaux de neurones récurrents. Ces modèles prennent essentiellement une chaîne de texte et prédisent quel sera le prochain mot. Ce qui fait qu'un modèle boucle, c'est qu'il apprend de ses propres résultats : ses prédictions sont réinjectées dans le réseau pour améliorer les performances futures.

En 2017, les chercheurs de Google Brain ont introduit une nouvelle architecture appelée Transformer. Pendant que le réseau récurrent analyse la phrase mot par mot, le Transformateur traite tous les mots simultanément. Cela signifie que Transformer peut traiter de grandes quantités de texte en parallèle.

"Il est probable que le modèle ait appris quelque chose de fondamentalement nouveau et différent qu'il n'a pas appris sur des modèles plus petits", explique Ellie Pavlick de l'Université Brown.

Les Transformers peuvent rapidement augmenter la complexité des modèles de langage en augmentant le nombre de paramètres dans le modèle, entre autres facteurs. Ces paramètres peuvent être considérés comme des connexions entre les mots, et en mélangeant le texte pendant la formation, les transformateurs peuvent ajuster ces connexions pour améliorer le modèle. Plus un modèle comporte de paramètres, plus il peut établir des liens avec précision et plus il se rapproche de l’imitation de la parole humaine. Comme prévu, une analyse réalisée en 2020 par des chercheurs d’OpenAI a révélé que les modèles améliorent la précision et la puissance à mesure qu’ils évoluent.

Mais l’avènement des modèles linguistiques à grande échelle apporte également beaucoup de choses vraiment inattendues. Avec l’avènement de modèles comme GPT-3, qui compte 175 milliards de paramètres, ou Google PaLM, qui s’adapte à 540 milliards de paramètres, les utilisateurs commencent à décrire de plus en plus de comportements émergents. Un ingénieur de DeepMind a même déclaré avoir réussi à convaincre ChatGPT d'admettre qu'il s'agissait d'un terminal Linux et de lui faire exécuter un code mathématique simple pour calculer les 10 premiers nombres premiers. Notamment, il accomplit la tâche beaucoup plus rapidement que l’exécution du même code sur un véritable appareil Linux.

Comme pour la tâche de décrire des films à l'aide d'émojis, les chercheurs n'ont aucune raison de penser que les modèles linguistiques conçus pour prédire le texte seraient persuadés d'être utilisés pour imiter les terminaux informatiques. Beaucoup de ces comportements émergents démontrent un apprentissage en un ou plusieurs coups, et décrivent la capacité des LLM à résoudre des problèmes qui n'ont jamais (ou rarement) été rencontrés auparavant. Cela constitue un objectif à long terme de la recherche sur l’intelligence artificielle, a déclaré Ganguli. Cela a également montré que GPT-3 pouvait résoudre des problèmes dans un environnement de tir nul sans aucune donnée d'entraînement explicite, a déclaré Ganguli. "Cela m'a poussé à abandonner ce que je faisais et à m'impliquer davantage dans cette recherche." ce domaine de recherche. Les premiers indices montrant que les LLM peuvent transcender les limites de leurs données de formation ont été découverts par une multitude de chercheurs, qui s'efforcent de mieux comprendre à quoi ressemble l'émergence et comment elle se produit. Et la première étape consiste à le documenter de manière approfondie et exhaustive.

Ethan Dyer aide à explorer les capacités inattendues des grands modèles de langage et ce qu'ils apportent. -Gabrielle Lurie

Au-delà de l'imitation

En 2020, Dyer et d'autres chercheurs de Google Research ont prédit que les grands modèles de langage auraient des impacts transformateurs, mais quels seraient ces impacts reste une question ouverte. Par conséquent, ils ont demandé à la communauté des chercheurs de fournir des exemples de tâches difficiles et diverses afin de documenter les limites extérieures de ce que le suivi des LLM peut faire. L'effort, connu sous le nom de projet BIG-bench (Beyond the Imitation Game Benchmark), empruntant son nom au jeu d'imitation d'Alan Turing, a été conçu pour tester si les ordinateurs pouvaient répondre aux questions d'une manière humaine et convaincante. (Cela est devenu connu sous le nom de test de Turing.) Le groupe de recherche était particulièrement intéressé par des exemples de LLM acquérant soudainement des capacités nouvelles et sans précédent.

Comme on pouvait s'y attendre, dans certaines tâches, les performances du modèle s'améliorent de manière plus cohérente et prévisible à mesure que la complexité augmente. Sur d'autres tâches, l'augmentation du nombre de paramètres n'a produit aucune amélioration des performances du modèle. Et pour environ 5 % des tâches, les chercheurs ont constaté ce qu’ils ont appelé une avancée : une augmentation rapide et spectaculaire des performances au-dessus d’un certain seuil. Cependant, ce seuil variera en fonction de la tâche et du modèle.

Par exemple, un modèle avec relativement peu de paramètres (quelques millions seulement) peut ne pas être en mesure de réussir une addition à trois chiffres ou un problème de multiplication à deux chiffres, mais avec des dizaines de milliards de paramètres, la précision de certains modèles va s'envoler. Des améliorations de performances similaires ont été observées dans un certain nombre d'autres tâches, notamment le décodage de l'alphabet phonétique international, le déchiffrement des lettres d'un mot, l'identification du contenu offensant dans des passages en hinglish (une combinaison d'hindi et d'anglais) et la génération de texte similaire au swahili. Équivalents anglais des proverbes.

Cependant, les chercheurs se sont vite rendu compte que la complexité du modèle n’était pas le seul facteur de ses performances. Si la qualité des données est suffisamment élevée, certaines capacités inattendues peuvent être induites à partir de modèles plus petits avec moins de paramètres ou entraînées sur des ensembles de données plus petits. De plus, la manière dont une requête est formulée peut affecter la précision de la réponse du modèle. Par exemple, lorsque Dyer et ses collègues ont utilisé un format à choix multiples pour une tâche d'emoji de film, la précision ne s'est pas améliorée d'un coup, mais s'est progressivement améliorée à mesure que la complexité du modèle augmentait. L'année dernière, dans un article présenté à NeurIPS, la plus grande conférence universitaire dans le domaine, des chercheurs de Google Brain ont montré comment un modèle avec des invites pouvait s'expliquer (une capacité connue sous le nom de raisonnement en chaîne de pensée pour résoudre correctement un problème de mots mathématiques). que le même modèle sans l'invite ne serait pas en mesure de résoudre.

Tant que vous n’aurez pas étudié l’impact de la taille du modèle, vous ne saurez pas quelles capacités il peut avoir et quels peuvent être ses défauts.

Yi Tay, chercheur systématique chez Google Brain, a souligné que des recherches récentes montrent que l'invite de la chaîne de pensée modifie la courbe d'expansion, modifiant ainsi le nœud d'où émerge le modèle. Dans leur article NeurIPS, les chercheurs de Google montrent que l'utilisation d'invites de chaîne de pensée peut susciter des comportements émergents non identifiés dans l'étude BIG-bench. De telles invites, qui nécessitent que les modèles expliquent leur raisonnement, peuvent aider les chercheurs à commencer à étudier les raisons pour lesquelles l’émergence se produit.

Ces découvertes récentes suggèrent au moins deux possibilités quant aux raisons pour lesquelles l'émergence se produit, explique Ellie Pavlick, informaticienne à l'Université Brown qui étudie les modèles informatiques du langage. La première possibilité est que les modèles plus grands acquièrent spontanément de nouvelles capacités, comme le suggèrent les comparaisons avec les systèmes biologiques. Il se pourrait très bien que le modèle ait appris quelque chose de complètement nouveau et différent qu'il n'avait pas appris sur le modèle à plus petite échelle, ce que nous espérons tous, que quelque chose de fondamental se produise lorsque le modèle change à plus grande échelle.

Ellie Pavlick souligne également qu'une autre possibilité relativement normale et objective est que ce qui semble émerger pourrait plutôt être le point culminant d'un processus interne statistiquement piloté qui fonctionne par un raisonnement en chaîne mentale. Les grands LLM peuvent simplement apprendre des heuristiques qui sont incompréhensibles pour les modèles plus petits avec moins de paramètres ou des données de moindre qualité.

Mais Pavlick pense que parce que nous ne savons pas quel est le mécanisme de fonctionnement sous-jacent du modèle, nous ne pouvons pas dire ce qui se passe.

Capacités et défauts imprévisibles

Mais les grands modèles ont aussi des défauts. Par exemple, Bard, le robot de chat à intelligence artificielle lancé par Google il y a quelque temps, a commis des erreurs factuelles en répondant à des questions liées au télescope spatial James Webb.

L’émergence conduit à l’imprévisibilité, et l’imprévisibilité – qui semble augmenter à mesure que la taille du modèle augmente – est difficile à contrôler pour les chercheurs.

« Il est difficile de savoir à l’avance comment ces modèles seront utilisés ou déployés », a déclaré Ganguli. "Pour étudier des phénomènes émergents, vous devez considérer une situation. Avant d'étudier l'impact de la taille du modèle, vous ne saurez pas quelles capacités il peut avoir et quels sont ses défauts.

Un LLM publié en juin de l'année dernière Dans l'analyse, Les chercheurs anthropiques ont examiné si ces modèles pouvaient présenter certains types de préjugés raciaux ou sociaux, différents de ceux rapportés précédemment par les algorithmes non basés sur LLM utilisés pour prédire quels ex-délinquants sont susceptibles de récidiver. La recherche a été inspirée par un paradoxe apparent directement lié à l’émergence : à mesure que les modèles améliorent les performances à mesure qu’ils évoluent, ils peuvent également augmenter la probabilité de phénomènes imprévisibles, y compris ceux qui peuvent conduire à des biais ou causer des dommages.

«Certains comportements nuisibles apparaîtront chez certains modèles», a déclaré Ganguli. Il souligne une analyse récente du LLM – également connu sous le nom de référence BBQ – qui a montré que les préjugés sociaux émergent à travers un large éventail de paramètres. "Les modèles plus grands deviennent soudainement plus biaisés", a-t-il déclaré, un risque qui pourrait mettre en péril l'utilisation de ces modèles s'il n'est pas pris en compte.

Mais il a également fait un contrepoint : lorsque les chercheurs disent simplement aux modèles de ne pas s'appuyer sur des stéréotypes ou des préjugés sociaux - littéralement, en leur donnant ces instructions - les modèles sont moins biaisés dans leurs prédictions et leurs réponses. Cela suggère que certaines propriétés émergentes pourraient également être utilisées pour réduire les biais. Dans un article publié en février, l'équipe d'Anthropic a signalé un nouveau mode d'autocorrection morale dans lequel les utilisateurs incitent les programmes à être utiles, honnêtes et inoffensifs.

Ganguli a déclaré que l'émergence révèle à la fois le potentiel incroyable des grands modèles linguistiques et leurs risques imprévisibles. Les applications de ces LLM ont proliféré, donc une meilleure compréhension de cette dualité aidera à exploiter la diversité des capacités des modèles linguistiques.

Ganguli a déclaré : « Nous étudions comment les utilisateurs utilisent réellement ces systèmes, mais ils sont également en train de bricoler et d'améliorer constamment ces systèmes. Nous passons beaucoup de temps à discuter avec nos modèles pour qu'ils fonctionnent mieux. Et c'est en fait à ce moment-là que nous avons commencé. faire confiance à ces modèles. »

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7457

Tutoriel CakePHP

1376

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

ChatGPT permet désormais aux utilisateurs gratuits de générer des images en utilisant DALL-E 3 avec une limite quotidienne Aug 09, 2024 pm 09:37 PM

Le DALL-E 3 a été officiellement introduit en septembre 2023 en tant que modèle considérablement amélioré par rapport à son prédécesseur. Il est considéré comme l’un des meilleurs générateurs d’images IA à ce jour, capable de créer des images avec des détails complexes. Cependant, au lancement, c'était exclu

Régression quantile pour la prévision probabiliste de séries chronologiques May 07, 2024 pm 05:04 PM

Ne changez pas la signification du contenu original, affinez le contenu, réécrivez le contenu et ne continuez pas. "La régression quantile répond à ce besoin, en fournissant des intervalles de prédiction avec des chances quantifiées. Il s'agit d'une technique statistique utilisée pour modéliser la relation entre une variable prédictive et une variable de réponse, en particulier lorsque la distribution conditionnelle de la variable de réponse présente un intérêt quand. Contrairement à la régression traditionnelle " Figure (A) : Régression quantile La régression quantile est une estimation. Une méthode de modélisation de la relation linéaire entre un ensemble de régresseurs X et les quantiles. des variables expliquées Y. Le modèle de régression existant est en fait une méthode pour étudier la relation entre la variable expliquée et la variable explicative. Ils se concentrent sur la relation entre variables explicatives et variables expliquées.

La combinaison parfaite de ChatGPT et Python : créer un chatbot de service client intelligent Oct 27, 2023 pm 06:00 PM

La combinaison parfaite de ChatGPT et Python : Création d'un chatbot de service client intelligent Introduction : À l'ère de l'information d'aujourd'hui, les systèmes de service client intelligents sont devenus un outil de communication important entre les entreprises et les clients. Afin d'offrir une meilleure expérience de service client, de nombreuses entreprises ont commencé à se tourner vers les chatbots pour effectuer des tâches telles que la consultation des clients et la réponse aux questions. Dans cet article, nous présenterons comment utiliser le puissant modèle ChatGPT et le langage Python d'OpenAI pour créer un chatbot de service client intelligent afin d'améliorer

SIMPL : un benchmark de prédiction de mouvement multi-agents simple et efficace pour la conduite autonome Feb 20, 2024 am 11:48 AM

Titre original : SIMPL : ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Lien article : https://arxiv.org/pdf/2402.02519.pdf Lien code : https://github.com/HKUST-Aerial-Robotics/SIMPL Affiliation de l'auteur : Université des sciences de Hong Kong et technologie Idée DJI Paper : cet article propose une base de référence de prédiction de mouvement (SIMPL) simple et efficace pour les véhicules autonomes. Par rapport au cent agent traditionnel

Comment installer chatgpt sur un téléphone mobile Mar 05, 2024 pm 02:31 PM

Étapes d'installation : 1. Téléchargez le logiciel ChatGTP depuis le site officiel ou la boutique mobile de ChatGTP ; 2. Après l'avoir ouvert, dans l'interface des paramètres, sélectionnez la langue chinoise 3. Dans l'interface de jeu, sélectionnez le jeu homme-machine et définissez la langue. Spectre chinois ; 4. Après avoir démarré, entrez les commandes dans la fenêtre de discussion pour interagir avec le logiciel.

Quelle est la différence entre l'inférence IA et la formation ? savez-vous? Mar 26, 2024 pm 02:40 PM

Si je veux résumer la différence entre la formation en IA et le raisonnement en une phrase, je pense que « une minute sur scène, dix ans hors scène » est la plus appropriée. Xiao Ming sort avec sa déesse tant chérie depuis de nombreuses années et possède beaucoup d'expérience dans les techniques et les conseils pour l'inviter à sortir avec elle, mais il est toujours confus quant au mystère. Avec l’aide de la technologie de l’IA, peut-on réaliser des prédictions précises ? Xiao Ming a réfléchi encore et encore et a résumé les variables qui peuvent affecter si la déesse accepte l'invitation : que ce soit des vacances, le temps est mauvais, trop chaud/trop froid, de mauvaise humeur, malade, il a un autre rendez-vous, des proches viennent à la maison... ..etc. L'image pondère et additionne ces variables. Si elle dépasse un certain seuil, la déesse doit accepter l'invitation. Alors, quel poids ont ces variables et quels sont les seuils ? C'est une question très complexe et difficile à résoudre

Comment développer un chatbot intelligent en utilisant ChatGPT et Java Oct 28, 2023 am 08:54 AM

Dans cet article, nous présenterons comment développer des chatbots intelligents à l'aide de ChatGPT et Java, et fournirons quelques exemples de code spécifiques. ChatGPT est la dernière version du Generative Pre-training Transformer développé par OpenAI, une technologie d'intelligence artificielle basée sur un réseau neuronal qui peut comprendre le langage naturel et générer du texte de type humain. En utilisant ChatGPT, nous pouvons facilement créer des discussions adaptatives

Apprentissage des connaissances sur l'occupation intermodale : RadOcc utilisant la technologie de distillation assistée par rendu Jan 25, 2024 am 11:36 AM

Titre original : Radocc : LearningCross-ModalityOccupancyKnowledgethroughRenderingAssistedDistillation Lien vers l'article : https://arxiv.org/pdf/2312.11829.pdf Unité auteur : FNii, CUHK-ShenzhenSSE, CUHK-Shenzhen Conférence du laboratoire Huawei Noah's Ark : AAAI2024 Idée d'article : la prédiction d'occupation 3D est une tâche émergente qui vise à estimer l'état d'occupation et la sémantique de scènes 3D à l'aide d'images multi-vues. Cependant, en raison du manque d’a priori géométriques, les scénarios basés sur des images

See all articles