GPT-4 peut-il réussir le test de Turing ?
Lorsqu'un modèle assez puissant naît, les gens utilisent souvent le test de Turing pour mesurer l'intelligence de ce LLM.
Récemment, des chercheurs du Département des sciences cognitives de l'UCSD ont découvert :
Dans le test de Turing, les gens ne peuvent tout simplement pas distinguer le GPT-4 des humains !
Adresse papier : https://arxiv.org/pdf/2405.08007
Dans le test de Turing, GPT-4 a été jugé humain 54 % du temps.
Les résultats expérimentaux montrent que c'est la première fois qu'un système réussit empiriquement au test de Turing "interactif" à deux personnes.
Le chercheur Cameron R. Jones a recruté 500 volontaires, qui ont été répartis en 5 rôles : 4 évaluateurs, à savoir GPT-4, GPT-3.5, ELIZA et humains, et un autre rôle "agir" simplement comme un être humain. , caché de l'autre côté de l'écran, attendant que l'évaluateur le découvre.
Ce qui suit est un extrait du jeu. Pouvez-vous dire quelle boîte de dialogue est humaine ?
Figure 1 : Partie de la conversation entre l'interrogateur humain (vert) et le témoin (gris)
En fait, parmi ces quatre conversations, l'une est une conversation avec un témoin humain, et la le reste sont des conversations avec l’intelligence artificielle.
Au cours des 74 dernières années, les gens ont fait de nombreuses tentatives de tests de Turing, mais peu d'expériences contrôlées ont été menées.
Le célèbre Prix Loebner est un concours annuel. Cependant, depuis sa première tenue en 1990 jusqu'en 2020, aucun système n'a réussi l'épreuve.
Une étude récente à grande échelle a révélé que les humains peuvent reconnaître une série de LLM avec une précision de 60 % au cours d'une conversation en ligne de 2 minutes.
À ce jour, il n'y a eu aucune démonstration expérimentale « contrôlée » où une machine ait réussi le test.
Pour tester s'il est possible pour les gens de voir à travers la tromperie des systèmes d'IA actuels, les chercheurs ont utilisé GPT-4 pour effectuer un test de Turing contrôlé aléatoirement sur deux personnes.
Les exigences du test sont très simples, c'est-à-dire que les participants humains entament une conversation de 5 minutes avec des humains et l'intelligence artificielle, et déterminent si l'interlocuteur est un humain.
Comme mentionné au début, les chercheurs ont évalué un total de 3 modèles : GPT-4, GPT-3.5 et ELIZA.
Pour les deux premiers LLM, les chercheurs ont adapté les indices les plus performants des études exploratoires GPT-4 et GPT-3.5 pour indiquer au grand modèle comment répondre aux messages.
Un défi majeur dans l'interprétation du test de Turing, disent les chercheurs, est que les performances exceptionnelles d'un système peuvent provenir de deux raisons :
- Premièrement, il s'agit d'une bonne imitation des humains
- Deuxièmement, le le juge est trop crédule
Cette dernière situation est souvent appelée l'effet ELIZA, c'est-à-dire que les participants humaniseront même des systèmes simples.
Le système ELIZA est très familier à tout le monde.
Il s'agissait d'un simple chatbot basé sur des règles datant des années 1960, mais les utilisateurs se sont retrouvés à lui attribuer également des caractéristiques humaines.
Par conséquent, dans l'expérience, les chercheurs ont utilisé ELIZA comme base de référence, d'une part pour quantifier empiriquement l'effet ELIZA, et d'autre part pour effectuer des contrôles opérationnels dans l'expérience.
Alors, quels sont les résultats spécifiques de ce test de Turing ?
Premier regard sur un indicateur important : le taux de réussite.
Les chercheurs définissent le taux de réussite comme la proportion d'objets d'évaluation dans le jeu qui sont jugés humains par les évaluateurs.
Le taux de réussite du GPT-4 est de 54 %, dépassant le GPT-3,5 (50 %) et la ligne de base d'ELIZA (22 %), mais inférieur à celui des sujets humains (67 %).
Taux de réussite des évaluateurs (à gauche) et confiance des évaluateurs (à droite). Chaque point de l'image de droite représente un jeu
Ce résultat n'est en fait pas surprenant et est fondamentalement cohérent avec les hypothèses de la phase initiale de la recherche.
Avant l'expérience, les chercheurs ont fait plusieurs hypothèses : Premièrement, on supposait que la capacité des humains à détecter le GPT-4 ne dépasserait pas le hasard (50 %).
Pour vérifier cela, les chercheurs ont ajusté un modèle de régression logistique pour prédire le taux de réussite de l'interception uniquement.
Il n'y a pas de différence significative entre l'interception et 0 (z=0,14, p=0,482), ce qui montre que le taux de réussite du GPT-4 peut être approximativement égal à 50 %. Le modèle bayésien prédit un intervalle de confiance de 95 % pour l'interception GPT-4 de -0,24 à 0,55 (équivalent à un taux de réussite de 44 % à 63 %).
Cela signifie que lorsque les humains sont confrontés au GPT-4, la probabilité de réussite de la discrimination est à peu près la même que celle de lancer une pièce de monnaie !
Les résultats ont également confirmé les deuxième et troisième hypothèses des chercheurs : le taux de réussite humain était significativement supérieur au taux de réussite du GPT-4 (z=2,42, p=0,017), tandis que le taux de réussite du GPT-4 était plus élevé. taux de réussite d'ELIZA (z = 4,11, p
Cependant, ce qui est incompatible avec les hypothèses expérimentales du chercheur, c'est que les performances de GPT-4 et GPT-3.5 sont presque les mêmes (z=0,497, p=0,619).
Dans le domaine "faire semblant d'être humain", c'est égalité.
Également surprenant, les participants qui ont déclaré avoir une meilleure compréhension du fonctionnement des LLM n'ont pas mieux réussi à identifier les LLM (z = -0,023, p = 0,869).
Dans une analyse exploratoire, les chercheurs ont découvert que l'âge avait un impact négatif sur la précision de l'interrogateur (z = -2,24, p = 0,025), mais que d'autres variables démographiques, notamment le sexe, le niveau d'éducation et la fréquence d'interaction avec le chatbot, ) n'a eu aucun effet significatif.
Pourquoi est-ce le résultat ? Analysons les raisons qui en sont la cause.
Pour mieux comprendre ce qui influence exactement les décisions des évaluateurs, nous avons catégorisé les stratégies utilisées par les évaluateurs et les raisons qu'ils ont fournies pour leurs décisions.
36% des évaluateurs discuteront avec la cible d'évaluation et lui poseront des questions sur certains détails personnels ou activités quotidiennes.
Les stratégies les plus courantes dans les deuxième et troisième catégories sont sociales et émotionnelles (25 %) – par exemple, poser des questions sur les opinions et les expériences de la personne évaluée et observer si elle a le sens de l'humour.
D'autres se concentrent sur la connaissance et le raisonnement (13%), notamment des questions sur les mathématiques, la logique et la culture générale.
Stratégie de demande (à gauche) et précision moyenne (à droite)
Pour comparer l'efficacité de chaque stratégie, les chercheurs ont calculé la précision moyenne en utilisant ces stratégies.
Lorsque la personne évaluée interroge l'autre personne sur l'expérience humaine (75%), la logique et les mathématiques (78%), ou "accuse" directement l'autre personne d'intelligence artificielle (80%), elle est généralement plus proche du " bonne réponse".
Dans les jeux, la raison pour laquelle l'intelligence artificielle « montre ses défauts » est généralement parce que l'évaluateur a l'impression qu'il semble se forcer à jouer un rôle, soit avec trop de désinvolture, soit avec un manque de personnalité.
Et ELIZA est facilement « exposée », principalement en raison de réactions non naturelles et d'un manque de conscience contextuelle.
On constate que tant au niveau des stratégies utilisées que des raisons de prise de décision par les volontaires participant au jeu, ils ont accordé plus d'attention au style de langage et aux facteurs socio-émotionnels plutôt qu'aux catégories intellectuelles plus traditionnelles ( connaissances et raisonnement).
Cela semble refléter une hypothèse sous-jacente des volontaires : l'intelligence sociale est la caractéristique humaine la plus inimitable pour l'IA.
Comment savoir quand un système a réussi le test de Turing ?
Turing avait prédit dans son article de 1950 que d'ici la fin du siècle, les systèmes d'IA seraient si bien capables de jouer au jeu de l'imitation qu'un examinateur n'aurait pas plus de 70 chances de procéder à une identification correcte après une évaluation de 5- échange minute %.
Cette conclusion a conduit à se demander si le taux de réussite de l'IA peut atteindre 30%, ce qui est devenu l'objet de discussion de nombreux chercheurs.
Cependant, cette référence semble arbitraire, et il n'est pas clair si Turing l'a conçu comme une définition du succès.
En fait, la base de référence de 50 % est plus raisonnable car elle prouve mieux que les évaluateurs humains ne valent pas mieux que la chance d'identifier l'IA.
Cette définition est particulièrement pertinente pour l'objectif de découvrir si les utilisateurs peuvent identifier de manière fiable d'autres humains lors d'interactions en ligne.
Dans l'analyse pré-publique des chercheurs, ce problème a été résolu en utilisant la base de référence ELIZA comme contrôle de manipulation.
Ce n'est que lorsque l'analyse montre que le taux de réussite d'ELIZA est inférieur à la probabilité et que le taux de réussite de GPT-4 n'est pas inférieur à la probabilité, que le modèle peut être considéré comme ayant réussi le test.
Selon cette définition, GPT-4 a clairement réussi cette version du test de Turing.
De plus, les scores de confiance des participants et leur base de prise de décision ont montré qu'ils ne devinaient pas au hasard : GPT-4 a un niveau de confiance humain moyen de 73 % (voir Figure 2).
Certains internautes ont dit que si nous voulons assimiler le test de Turing à l'intelligence, le test de Turing n'est pas un bon test. Cependant, le fait que l’IA puisse presque toujours « tromper » les humains est un peu inquiétant.
Certaines personnes se disaient sceptiques quant à ce genre de test. Étant donné que GPT-4 surpassera la plupart des humains, il sera facile de distinguer qui est humain et qui relève de l’intelligence artificielle.
Les chercheurs ont déclaré qu'il s'agissait effectivement d'un problème que nous avons rencontré. Par exemple, la réserve de connaissances de GPT-4 est « trop riche » ou il maîtrise trop de langues. Nous incitons explicitement le modèle à éviter cette situation, ce qui est efficace dans une certaine mesure.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!