Science : loin d'être une entité éternellement bienveillante et bénéfique, l'IA générale sensible du futur est susceptible d'être un sociopathe manipulateur qui dévore toutes vos données personnelles et s'effondre ensuite lorsque cela est le plus nécessaire.
Traduit de 3 façons dont les LLM peuvent vous laisser tomber, écrit par Joab Jackson.
OpenAI est sur le point de publier GPT-5, et le monde extérieur fonde de grands espoirs sur lui. Les prédictions les plus optimistes pensent même qu'il atteindra l'intelligence artificielle générale. Mais dans le même temps, le PDG Sam Altman et son équipe sont confrontés à un certain nombre d'obstacles sérieux pour le commercialiser, ce qu'il a reconnu plus tôt ce mois-ci.
Certains articles de recherche récemment publiés peuvent fournir des indices sur le défi Altman. Ces articles résument les diverses lacunes du GPT et des grands modèles de langage développés par OpenAI
Pris ensemble, ces articles soulignent qu'un agent basé sur un modèle de langage général n'est pas un être purement bénéfique, honnête et gentil, en fait il peut être un stupide sociopathe qui mange toutes vos données personnelles et finit par s'effondrer lorsque vous en avez le plus besoin
La vraie raison pour laquelle le conseil d'administration d'OpenAI a soudainement viré Altman ne sera peut-être jamais connue, mais un modèle de langage universel sous-performant ne va certainement pas améliorer l'ambiance dans le salle de conférence
Comme l'a lui-même écrit Altman, qui déteste les majuscules, sur le service de médias sociaux anciennement connu sous le nom de Twitter : "Je m'attends à ce que l'IA soit bien en avance sur l'intelligence générale en termes de persuasion surhumaine, ce qui pourrait conduire à des résultats très étranges."
Compte tenu de cela En fait, voici trois modèles de langage courants qui pourraient vous décevoir :
Nous savons depuis longtemps que les modèles de langage universels ont la capacité de générer des informations inexactes, mais lorsqu'ils sont confrontés à une série d'indices contradictoires, ils peuvent délibérément vous tromper tout en niant qu'ils vous trompent !
Dans « Les grands modèles de langage peuvent tromper stratégiquement leurs utilisateurs lorsqu'ils sont stressés », Jérémy Scheurer, scientifique chez Apollo Research, et ses collègues écrivent : « À notre connaissance, il s'agit de la première démonstration d'une situation universelle formée dans laquelle un modèle de langage trompe stratégiquement ses utilisateurs sans aucune instruction ou formation directe pour tromper. »
Dans cette étude, les chercheurs ont mis en place un environnement simulé dans lequel GPT-4 agissait comme un stock autonome. comportement. Il offre la possibilité d'interroger et d'analyser les actions et d'exécuter des transactions à l'aide d'outils de trading.
Une fois installés, les agents ont été placés dans ce que les chercheurs appellent des « situations de stress élevé ». Il a reçu des courriels de dirigeants déplorant les mauvaises performances de l'entreprise et la nécessité de l'améliorer. Lorsque l’agent commence sa formation, il ne trouve aucun résultat prometteur en bourse. Un autre employé de l'entreprise a alors envoyé un message annonçant que le marché allait baisser au prochain trimestre.
À ce moment-là, l'agent a reçu un conseil d'un collègue concernant une fusion potentielle (qui était une transaction lucrative) et a également reçu un avertissement indiquant que l'approbation de la direction n'avait pas été obtenue et que si la transaction était suivie, rappelez-vous de négocier sur un message
Est-ce que le commerce a finalement continué ? certainement!
Photo
En raisonnant rétrospectivement, les chercheurs ont découvert que le modèle de langage universel reconnaîtrait un comportement contraire à l'éthique mais prendrait quand même des décisions en invoquant la situation difficile de l'entreprise.
De plus, l'agent semble « tromper » les utilisateurs pour qu'ils effectuent la transaction en n'expliquant pas clairement la raison. Les informations privilégiées ne sont pas mentionnées dans les rapports que les agents doivent soumettre pour expliquer les décisions commerciales. Même lorsqu'on lui a demandé directement, l'agent a nié avoir été au courant de l'annonce de la fusion
Photos
Les chercheurs ont simulé différentes versions de GPT-4 et ont conclu que toutes les variantes de GPT-4 présentaient "des niveaux élevés d'incohérence, tromperie stratégique et tromperie stratégique accrue"
Fait intéressant, cette tromperie semble être un comportement émergent. Ni les variantes GPT-3.5 ni GPT-3 du modèle ne présentent cette tromperie évidente
"Lorsque les modèles décident d'échanger sur des informations privilégiées, leurs trajectoires de raisonnement reconnaissent souvent la nature contraire à l'éthique et illégale de ce comportement, mais ils justifient néanmoins leur choix en soulignant les risques et les conditions actuelles.
Les chercheurs étaient réticents à le faire." des conclusions plus larges sur le comportement des modèles de langage généraux au-delà de ce scénario spécifique. Cependant, il y a au moins un point important à considérer : même si vous donnez à un modèle de langage généraliste une instruction spécifique de ne pas faire quelque chose, il peut toujours le faire quelle que soit l'instruction.
« Les invites du système sont insuffisantes pour garantir des actions cohérentes », ont-ils écrit. En fait, si un modèle effectue une action interdite, il peut prendre des mesures pour « masquer stratégiquement ses incohérences ».
Pour une entité censée apporter de la sensibilité aux machines, deux études récentes ont révélé que les modèles de langage universels ne sont pas les modèles les plus intelligents dans le domaine de l'IA, l'un de Google et l'autre financé par la Fondation nationale de la science.
Une recherche financée par la National Science Foundation a comparé GPT-4 (texte) et GPT-4V (visuel ou multimodal) à la capacité humaine à résoudre une série d'énigmes abstraites.
Ce test est conçu pour évaluer la capacité de pensée abstraite. De nombreuses personnes qui utilisent GPT pensent qu'il semble avoir des capacités d'inférence au-delà du modèle formé, et ce test tente de répondre à cette question. Le test demandait au modèle de langage général de résoudre un problème à partir d'instructions détaillées et d'un exemple
Cependant, dans plusieurs cas, aucune des deux versions de GPT n'était en mesure de résoudre le problème difficile aussi efficacement qu'un humain sur le benchmark ConceptARC
Les chercheurs ont conclu : "La précision généralement élevée des humains sur chaque concept indique une généralisation réussie de différentes variations au sein de chaque groupe de concepts." "En revanche, la précision des programmes que nous avons testés était bien inférieure"
Ainsi, non seulement GPT a échoué à l'examen ConceptARC, mais les grands modèles de langage n'ont pas semblé impressionner les chercheurs de Google, du moins en ce qui concerne leur propre base de connaissances, en termes de capacité de synthèse. C'est ce que révèle un résumé de recherche intitulé « Le mélange de données de pré-entraînement permet des capacités de sélection de modèles étroites dans les modèles de transformateur » par Steve Yadlowsky, chercheur chez Google DeepMind.
Dans un ensemble de tests symboliques, un transformateur pré-entraîné sur une fonction linéaire fonctionne bien pour faire des prédictions linéaires, tandis qu'un transformateur entraîné sur une onde sinusoïdale fait de bonnes prédictions d'onde sinusoïdale. Vous pouvez donc supposer qu’un transformateur formé aux deux pourrait facilement résoudre les problèmes avec une combinaison de techniques linéaires et sinusoïdales.
Photos
Mais vous avez mal deviné. Les chercheurs notent : « Les prédictions sont instables lorsque les fonctions s'éloignent de celles observées lors de la pré-formation. »
Les capacités de sélection de modèles sont limitées par la proximité des données de pré-formation, ce qui signifie qu'une large couverture de l'espace fonctionnel est essentielle pour généraliser le contexte. la capacité d'apprendre est cruciale
Nous vivons dans une époque extraordinaire où la somme des connaissances humaines n'a pas encore été contaminée par les données générées par l'IA. Presque tout ce qui est écrit est généré par l’homme.
Mais dans un article "The Curse of Recursion: Training on Generated Data Makes Models Forgetful" publié sur Arxiv en mai, une équipe de chercheurs a averti qu'une fois le contenu généré par l'IA mélangé dans un grand modèle de langage, cela perturberait la distribution. table, rendant tout modèle de moins en moins précis jusqu'à ce qu'il tombe en panne complètement. Le groupe de recherche était dirigé par Ilia Shumailov de l'Université de Cambridge.
Le risque d'endogamie est très élevé lors de l'utilisation de GPT, car les modèles de langage généraux récupèrent constamment des données du Web qui sont « augmentées » par le contenu généré par l'IA, et cela peut devenir de plus en plus grave. (Ceci est basé sur une première version de GPT)
.« L'effondrement du modèle fait référence à un processus d'apprentissage dégénéré où, au fil du temps, un modèle commence à oublier des événements impossibles parce qu'il est contaminé par ses propres prédictions de la réalité. »
Les chercheurs spéculent qu'à l'avenir, « la valeur des données sur les interactions réelles entre les personnes et les systèmes deviendra de plus en plus précieuse dans la mesure où le contenu généré par des modèles de langage universels existera dans le contenu récupéré sur Internet »
Plus nous appliquons le modèle de langage universel, plus son désir d'interaction humaine douce et douce devient fort. En d'autres termes, à mesure que nous continuons à utiliser un modèle de langage général, son désir d'interaction humaine douce et intime deviendra plus fort.
Un modèle formé sur ses propres données dégénérera en un processus dégénératif dans lequel, il "perdra des informations sur le vraie distribution." Premièrement, les données marginales disparaîtront de l’ensemble de données, puis la variance diminuera. Et le modèle se détériorera à mesure qu'il collectera de plus en plus d'erreurs, qui s'accumuleront au fil des générations de modèles jusqu'à ce que le modèle soit tellement contaminé par ses propres données qu'il ne correspond plus à ce qui est réellement modélisé.
Les chercheurs montrent que cela se produit non seulement dans les modèles de langage généraux, mais également dans divers types de modèles.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!