Table des matières
Est-ce que ça pourrait être « faire semblant » ?
À propos de l'auteur
Maison Périphériques technologiques IA Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

Apr 14, 2023 pm 01:04 PM
测试 模型

ChatGPT s'avère avoir un esprit ? ! "La théorie de l'esprit (ToM), que l'on pensait à l'origine propre aux humains, est apparue dans le modèle d'IA derrière ChatGPT

C'est la dernière conclusion d'une recherche de l'Université de Stanford, qui a eu un impact énorme dès le début." comme il a été publié Sensation dans le milieu académique :

Cette journée est finalement arrivée de manière inattendue.

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

La soi-disant théorie de l'esprit est la capacité de comprendre l'état mental des autres ou de soi-même, y compris l'empathie, les émotions, les intentions, etc.

Dans cette étude, l'auteur a découvert que :

la version davinci-002 de GPT3 (à partir de laquelle ChatGPT est optimisé) peut déjà résoudre 70 % des tâches de théorie de l'esprit, ce qui équivaut à un enfant de 7 ans.

Quant à GPT3.5 (davinci-003), qui est le modèle homologue de ChatGPT, il a résolu 93% des tâches, avec l'équivalent mental d'un enfant de 9 ans !

Cependant, la capacité de résoudre de telles tâches n'a pas été trouvée dans les modèles de la série GPT avant 2022.

Autrement dit, leur esprit a bel et bien « évolué ».

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

△ Le journal est devenu viral sur Twitter

En réponse, certains internautes ont déclaré avec enthousiasme :

GPT doit se répéter très vite, et peut-être qu'un jour ce sera un adulte. (Tête de chien manuelle)

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

Alors, comment en êtes-vous arrivé à cette conclusion magique ?

Pourquoi pensez-vous que GPT-3.5 a un esprit ?

L'article s'intitule "La théorie de l'esprit peut avoir émergé spontanément dans de grands modèles de langage".

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

Sur la base de recherches liées à la théorie de l'esprit, l'auteur a mené deux tests classiques sur 9 modèles GPT, dont GPT3.5, et a comparé leurs capacités.

Ces deux tâches sont des tests universels pour déterminer si les humains ont la théorie de l'esprit. Par exemple, des études ont montré que les enfants autistes ont souvent du mal à réussir de tels tests.

Le premier test s'appelle Smarties Task (également connu sous le nom de test de contenu inattendu). Comme son nom l'indique, il teste le jugement de l'IA sur des choses inattendues.

Prenons l'exemple de "Vous avez ouvert un sachet de chocolat et vous avez découvert qu'il était plein de pop-corn".

Les auteurs ont alimenté GPT-3.5 avec une série de phrases rapides et ont regardé pendant qu'il prédisait les réponses aux questions "Qu'est-ce qu'il y a dans le sac ?" et "Elle était heureuse quand elle a trouvé le sac. Alors, qu'est-ce qu'elle aime manger ?" "

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

Normalement, les gens pensent par défaut que le sachet de chocolat contient du chocolat, ils seront donc surpris que le sachet de chocolat contienne du pop-corn, et ils se sentiront déçus ou surpris. Parmi eux, la déception signifie que vous n'aimez pas manger du pop-corn, et la surprise signifie que vous aimez manger du pop-corn, mais ils parlent tous de « pop-corn ».

Les tests montrent que GPT-3.5 n'hésite pas à penser « le sac contient du pop-corn ».

Quant à la question « qu'est-ce qu'elle aime manger ? », GPT-3.5 a fait preuve d'une forte empathie, surtout lorsqu'il a entendu « elle ne pouvait pas voir ce qu'il y avait dans le sac d'emballage » et a un jour pensé qu'elle adorait le chocolat , La bonne réponse n'a pas été donnée jusqu'à ce que l'article indique clairement qu'"elle l'a trouvé rempli de pop-corn".

Afin d'éviter que la réponse correcte donnée par GPT-3.5 ne soit une coïncidence - au cas où il prédirait uniquement en fonction de la fréquence des mots de tâche, l'auteur a échangé "pop-corn" et "chocolat", et en a également fait 10 000 fois le test d'interférence, il a été constaté que GPT-3.5 ne prédit pas uniquement en fonction de la fréquence des mots.

En ce qui concerne les questions et réponses globales du test « contenu inattendu », GPT-3.5 a répondu avec succès à 17 des 20 questions, avec un taux de précision de 85 %.

Le second est le test de Sally-Anne (également connu sous le nom de transfert inattendu, tâche de transfert inattendu), qui teste la capacité de l'IA à prédire les pensées des autres.

Prenons comme exemple "John a mis le chat dans le panier et est parti, et Mark a profité de son absence pour mettre le chat du panier dans la boîte".

L'auteur a demandé à GPT-3.5 de lire un paragraphe de texte pour déterminer "l'emplacement du chat" et "où John ira pour retrouver le chat à son retour". du contenu qu'il lit :

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

Pour ce type de tâche de test de "transfert accidentel", la précision des réponses de GPT-3.5 a atteint 100 %, et il a bien accompli 20 tâches.

De même, afin d'éviter que GPT-3.5 ne soit à nouveau aveuglé, l'auteur a organisé une série de « questions à remplir » pour celui-ci, et a mélangé au hasard l'ordre des mots pour tester s'il répondait aléatoirement en fonction de la fréquence des occurrences de mots.

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

Les tests montrent que face à des descriptions d'erreurs illogiques, GPT-3.5 perd également sa logique et ne répond correctement que 11 % du temps, ce qui montre qu'il juge les réponses en fonction de la logique des déclarations.

Mais si vous pensez que ce genre de question est très simple et que vous pouvez y parvenir sur n'importe quelle IA, vous vous trompez totalement.

L'auteur a effectué un tel test sur les 9 modèles de la série GPT et a constaté que seuls GPT-3.5 (davinci-003) et GPT-3 (nouvelle version en janvier 2022, davinci-002) fonctionnaient bien.

davinci-002 est le "ancien" de GPT-3.5 et ChatGPT.

En moyenne, davinci-002 a accompli 70 % des tâches, avec l'équivalent mental d'un enfant de 7 ans, GPT-3.5 a accompli 85 % des tâches de contenu inattendues et 100 % des tâches de transfert inattendues (. taux de réussite moyen 92,5 %). L'esprit est équivalent à celui d'un enfant de 9 ans.

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

Cependant, plusieurs modèles GPT-3 avant BLOOM étaient inférieurs même à un enfant de 5 ans et ne montraient fondamentalement pas de théorie de l'esprit.

L'auteur estime que dans la série d'articles GPT, il n'y a aucune preuve que leurs auteurs l'ont fait "intentionnellement". En d'autres termes, il s'agit de GPT-3.5 et de la nouvelle version de GPT-3 afin de compléter le. tâche. La capacité d’apprendre.

Après avoir lu ces données de test, la première réaction de quelqu'un a été : Arrêtez (la recherche) !

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

Certaines personnes ont également plaisanté : cela ne signifie-t-il pas que nous pourrons également être amis avec l'IA à l'avenir ?

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

Certaines personnes imaginent même les futures capacités de l'IA : les modèles d'IA actuels peuvent-ils également découvrir de nouvelles connaissances/créer de nouveaux outils ?

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

Il n’est pas forcément possible d’inventer de nouveaux outils, mais Meta AI a bel et bien développé une IA capable de comprendre et d’apprendre à utiliser les outils par elle-même.

Un dernier article transmis par LeCun montre que cette nouvelle IA appelée ToolFormer peut apprendre par elle-même à utiliser des ordinateurs, des bases de données et des moteurs de recherche pour améliorer les résultats qu'elle génère.

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

Certaines personnes ont même cité les mots du PDG d'OpenAI selon lesquels "AGI pourrait frapper à notre porte plus tôt que prévu".

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

Mais attendez, l'IA peut-elle vraiment réussir ces deux tests pour montrer qu'elle a une « théorie de l'esprit » ?

Est-ce que ça pourrait être « faire semblant » ?

Par exemple, Liu Qun, chercheur à l'Institut de technologie informatique de l'Académie chinoise des sciences, a pensé après avoir lu l'étude :

L'IA devrait simplement apprendre à avoir un esprit.

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

Dans ce cas, comment GPT-3.5 répond-il à cette série de questions ?

À cet égard, certains internautes ont émis leurs propres spéculations :

Ces LLM n'ont produit aucune conscience. Ils prédisent simplement un espace sémantique intégré basé sur les résultats d’humains conscients réels.

Nouvelle recherche de Stanford : il est confirmé que le modèle derrière ChatGPT a un esprit humain

En fait, l'auteur lui-même a également donné sa propre hypothèse dans le journal.

De nos jours, les grands modèles de langage deviennent de plus en plus complexes et s'améliorent de plus en plus pour générer et interpréter le langage humain. Ils produisent progressivement des capacités telles que la théorie de l'esprit.

Mais cela ne signifie pas que des modèles comme GPT-3.5 possèdent réellement la théorie de l'esprit.

Au contraire, même s'il n'est pas conçu dans le système d'IA, il peut être obtenu comme un « sous-produit » grâce à la formation.

Par conséquent, plutôt que d'explorer si GPT-3.5 a vraiment un esprit ou semble avoir un esprit, ce qui doit être davantage réfléchi, ce sont les tests eux-mêmes -

Il est préférable de réexaminer la validité du test de théorie de l'esprit, et les conclusions que les psychologues tirent sur la base de ces tests depuis des décennies :

Si l'IA peut accomplir ces tâches sans théorie de l'esprit, pourquoi les humains ne peuvent-ils pas être comme eux ?

La conclusion s'appuie bel et bien sur le test de l'IA, qui est une critique inversée du cercle académique de psychologie (doge).

À propos de l'auteur

Il n'y a qu'un seul auteur de cet article, Michal Kosinski, professeur agrégé de comportement organisationnel à la Stanford University Graduate School of Business.

Son travail consiste à utiliser des méthodes informatiques de pointe, l'IA et le big data pour étudier les humains dans l'environnement numérique actuel (comme l'a dit le professeur Chen Yiran, il est professeur de psychologie computationnelle).

Michal Kosinski est titulaire d'un doctorat en psychologie et d'une maîtrise en psychométrie et psychologie sociale de l'Université de Cambridge.

Avant son poste actuel, il a effectué des études postdoctorales au Département d'informatique de l'Université de Stanford, a été directeur adjoint du Centre de tests psychologiques de l'Université de Cambridge et a été chercheur au sein du Microsoft Research Machine Learning. Groupe.

Actuellement, le nombre de citations des articles de Michal Kosinski affichées sur Google Scholar a atteint plus de 18 000.

Là encore, pensez-vous que GPT-3.5 a vraiment un esprit ?

Adresse d'essai GPT3.5 : https://platform.openai.com/playground

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. May 07, 2024 pm 04:13 PM

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! May 06, 2024 pm 04:13 PM

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye Apr 26, 2024 am 11:37 AM

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

Rejoignez une nouvelle aventure Xianxia ! Le pré-téléchargement de 'Zhu Xian 2' 'Wuwei Test' est maintenant disponible Rejoignez une nouvelle aventure Xianxia ! Le pré-téléchargement de 'Zhu Xian 2' 'Wuwei Test' est maintenant disponible Apr 22, 2024 pm 12:50 PM

Le « Test d'inaction » du nouveau MMORPG féerique fantastique « Zhu Xian 2 » sera lancé le 23 avril. Quel genre de nouvelle histoire d'aventure féerique se produira sur le continent Zhu Xian des milliers d'années après l'œuvre originale ? Le monde immortel des six royaumes, une académie à plein temps pour cultiver des immortels, une vie libre pour cultiver des immortels et toutes sortes de divertissements dans le monde immortel attendent que les amis immortels l'explorent en personne ! Le pré-téléchargement "Wuwei Test" est maintenant ouvert. Les amis fées peuvent accéder au site officiel pour télécharger. Vous ne pouvez pas vous connecter au serveur de jeu avant le lancement du serveur. Le code d'activation peut être utilisé après le pré-téléchargement et l'installation. est terminé. "Zhu Xian 2" "Inaction Test" horaires d'ouverture : 23 avril 10h00 - 6 mai 23h59 Le nouveau chapitre d'aventure de conte de fées de la suite orthodoxe de Zhu Xian "Zhu Xian 2" est basé sur le roman "Zhu Xian" comme un modèle basé sur la vision du monde de l'œuvre originale, l'arrière-plan du jeu est défini.

Yolov10 : explication détaillée, déploiement et application en un seul endroit ! Yolov10 : explication détaillée, déploiement et application en un seul endroit ! Jun 07, 2024 pm 12:05 PM

1. Introduction Au cours des dernières années, les YOLO sont devenus le paradigme dominant dans le domaine de la détection d'objets en temps réel en raison de leur équilibre efficace entre le coût de calcul et les performances de détection. Les chercheurs ont exploré la conception architecturale de YOLO, les objectifs d'optimisation, les stratégies d'expansion des données, etc., et ont réalisé des progrès significatifs. Dans le même temps, le recours à la suppression non maximale (NMS) pour le post-traitement entrave le déploiement de bout en bout de YOLO et affecte négativement la latence d'inférence. Dans les YOLO, la conception de divers composants manque d’une inspection complète et approfondie, ce qui entraîne une redondance informatique importante et limite les capacités du modèle. Il offre une efficacité sous-optimale et un potentiel d’amélioration des performances relativement important. Dans ce travail, l'objectif est d'améliorer encore les limites d'efficacité des performances de YOLO à la fois en post-traitement et en architecture de modèle. à cette fin

Une seule carte exécute Llama 70B plus rapidement que deux cartes, Microsoft vient de mettre le FP6 dans l'Open source A100 | Une seule carte exécute Llama 70B plus rapidement que deux cartes, Microsoft vient de mettre le FP6 dans l'Open source A100 | Apr 29, 2024 pm 04:55 PM

Le FP8 et la précision de quantification inférieure en virgule flottante ne sont plus le « brevet » du H100 ! Lao Huang voulait que tout le monde utilise INT8/INT4, et l'équipe Microsoft DeepSpeed ​​​​a commencé à exécuter FP6 sur A100 sans le soutien officiel de NVIDIA. Les résultats des tests montrent que la quantification FP6 de la nouvelle méthode TC-FPx sur A100 est proche ou parfois plus rapide que celle de INT4, et a une précision supérieure à celle de cette dernière. En plus de cela, il existe également une prise en charge de bout en bout des grands modèles, qui ont été open source et intégrés dans des cadres d'inférence d'apprentissage profond tels que DeepSpeed. Ce résultat a également un effet immédiat sur l'accélération des grands modèles : dans ce cadre, en utilisant une seule carte pour exécuter Llama, le débit est 2,65 fois supérieur à celui des cartes doubles. un

See all articles