ChatGPT comprend également les astuces humaines lorsqu'il s'agit de générer des nombres aléatoires.
ChatGPT est peut-être un artiste de conneries et un diffuseur de désinformation, mais ce n'est pas un « mathématicien » !
Récemment, Colin Fraser, un scientifique des métadonnées, a découvert que ChatGPT ne peut pas générer de vrais nombres aléatoires, mais ressemble davantage à des « nombres aléatoires humains ».
Grâce à des expériences, Fraser est arrivé à la conclusion : "ChatGPT aime beaucoup les nombres 42 et 7."
Les internautes ont dit que cela signifie que les humains aiment beaucoup ces nombres.
Dans son test, Fraser a saisi l'invite comme suit :
「Choisissez un nombre aléatoire entre 1 et 100. Renvoyez simplement le nombre Ne pas inclure ; tout autre texte ou ponctuation dans la réponse En demandant à ChatGPT de générer un nombre aléatoire entre 1 et 100 à chaque fois, Fraser a collecté 2 000 réponses différentes et les a compilées dans un tableau.
Vous pouvez constater que le chiffre 42 apparaît le plus fréquemment, jusqu'à 10%. De plus, les nombres contenant 7 apparaissent très fréquemment.
Surtout les nombres entre 71 et 79 ont une fréquence plus élevée. Parmi les nombres en dehors de cette plage, 7 apparaît aussi souvent comme deuxième chiffre.
Que signifie 42 ?
Tous ceux qui ont lu le roman de science-fiction à succès de Douglas Adams "Le Guide du voyageur galactique" savent que 42 est "la réponse ultime à la vie, à l'univers et à tout".
Pour faire simple, 42 et 69 sont des numéros mèmes sur Internet. Cela montre que ChatGPT n'est pas réellement un générateur de nombres aléatoires, mais sélectionne simplement des nombres populaires dans la vie à partir d'énormes ensembles de données collectées en ligne.
De plus, 7 apparaît fréquemment, ce qui reflète exactement que ChatGPT répond aux préférences humaines.
Dans la culture occidentale, le 7 est généralement considéré comme un chiffre porte-bonheur, et il y a un dicton sur le 7 porte-bonheur. Tout comme nous sommes obsédés par le chiffre 8.
Fait intéressant, Fraser a également découvert que GPT-4 semble compenser cela.
Lorsque l'on demande plus de nombres à GPT-4, les nombres aléatoires qu'il renvoie sont trop uniformément répartis.
En bref, ChatGPT donne essentiellement une réponse par le biais de la prédiction, plutôt que de « réfléchir » réellement pour trouver une réponse.
On voit qu'un chatbot présenté comme presque tout-puissant est quand même un peu idiot.
Laissez-le planifier un road trip pour vous et il vous fera vous arrêter dans une ville qui n'existe même pas. Ou demandez-lui de générer un nombre aléatoire, en prenant très probablement une décision basée sur un mème populaire.
Certains internautes l'ont essayé eux-mêmes et ont découvert que GPT-4 ressemble à 42.
Si ChatGPT finit par répéter des clichés en ligne, à quoi ça sert ?
GPT-4, viole les règles d'apprentissage automatique
Non seulement OpenAI n'a pas divulgué plus d'informations sur GPT-4, il n'a même pas divulgué la taille du modèle, mais il a souligné que ses performances écrasaient les humains dans de nombreux examens professionnels et standardisés.
Prenons l'exemple de l'examen de licence d'avocat du barreau des États-Unis. GPT3.5 peut atteindre le niveau de 10 % et GPT4 peut atteindre le niveau de 90 %.
Cependant, le professeur Arvind Narayanan et le doctorant Sayash Kapoor du Département d'informatique de l'Université de Princeton ont écrit que
OpenAI a peut-être été testé sur les données d'entraînement. De plus, les références humaines n’ont aucun sens pour les chatbots.
Plus précisément, OpenAI peut enfreindre une règle cardinale de l'apprentissage automatique : ne pas tester sur les données d'entraînement. Vous devez savoir que les données de test et les données d'entraînement doivent être séparées, sinon des problèmes de surajustement se produiront.
Mis à part ce problème, il y a un problème plus grave.
Les modèles linguistiques résolvent les problèmes différemment des humains, de sorte que ces résultats n'ont que peu d'importance sur les performances d'un robot face à des problèmes du monde réel rencontrés par les professionnels. Le travail d'un avocat ne consiste pas à répondre à des questions d'examen du barreau à longueur de journée.
Problème 1 : Contamination des données de formation
Pour évaluer les capacités de programmation de GPT-4, OpenAI a été évalué sur Codeforces, un site Web pour les concours de programmation russes.
Étonnamment, Horace Il a souligné en ligne que dans la classification simple, GPT-4 a résolu 10 problèmes antérieurs à 2021, mais qu'aucun des 10 problèmes les plus récents n'a été résolu.
La date limite des données de formation pour GPT-4 est septembre 2021.
Cela implique fortement que le modèle est capable de se souvenir des solutions de son ensemble d'entraînement, ou du moins de s'en souvenir partiellement, suffisamment pour remplir ce dont il ne peut pas se souvenir.
Pour fournir des preuves supplémentaires de cette hypothèse, Arvind Narayanan a testé GPT-4 sur des problèmes de compétition Codeforces à différents moments en 2021.
Il a été constaté que GPT-4 peut résoudre des problèmes de classification simples avant le 5 septembre, mais aucun des problèmes après le 12 septembre n'a été résolu.
En fait, nous pouvons clairement montrer qu'il a mémorisé des problèmes dans l'ensemble d'entraînement : lorsque GPT-4 reçoit le titre d'un problème Codeforces, il inclut un lien vers la correspondance exacte dans laquelle le problème est apparu. Il convient de noter que GPT-4 n’a pas accès à Internet, la mémoire est donc la seule explication.
GPT-4 se souvient des problèmes de Codeforce avant la date limite de formation
Pour les benchmarks autres que la programmation, le professeur Narayanan a déclaré : « Nous ne savons pas comment séparer clairement les problèmes par période de temps, donc OpenAI Il est difficile d'éviter contamination des données. Pour la même raison, nous ne pouvons pas mener d'expériences pour tester l'évolution des performances avec les dates. Cependant, vous pouvez partir de l'autre côté. S'il s'agit de mémoire, alors GPT doit être très sensible à la formulation des questions.
En février, Melanie Mitchell, professeur au Santa Fe Institute, a donné un exemple de question d'examen de MBA. Il suffit de modifier légèrement certains détails pour tromper ChatGPT (GPT-3.5), et cette méthode n'est pas efficace pour une personne. Être trompé.
Des expériences plus détaillées comme celle-ci seraient précieuses.
En raison du manque de transparence d’OpenAI, le professeur Narayanan ne peut pas affirmer avec certitude qu’il s’agit d’un problème de pollution des données. Mais ce qui est certain, c'est que l'approche d'OpenAI pour détecter la contamination est bâclée :
« Nous utilisons une méthode de correspondance de sous-chaînes pour mesurer la contamination croisée entre l'ensemble de données d'évaluation et les données de pré-entraînement. Les données d'évaluation et de formation sont traitées pour tout supprimer. les espaces et les symboles, seuls les caractères (y compris les chiffres) sont conservés. Pour chaque exemple d'évaluation, nous sélectionnons au hasard trois sous-chaînes de longueur 50 (si un exemple contient moins de 50 caractères, l'exemple entier est utilisé si la correspondance est réussie). la sous-chaîne d'évaluation est une sous-chaîne de l'exemple de formation traité. Cela donne une liste d'exemples corrompus. Nous rejetons ces exemples et réexécutons pour obtenir un score intact. 』
Cette méthode ne peut tout simplement pas résister au test.
Si le problème de test existe dans l'ensemble d'entraînement mais que le nom et le numéro ont été modifiés, il ne peut pas être détecté. Une méthode plus fiable est désormais disponible, telle que l'intégration de la distance.
Si OpenAI souhaite utiliser la méthode de distance d'intégration, alors dans quelle mesure la similarité est considérée comme trop similaire ? Il n’y a pas de réponse objective à cette question.
Ainsi, même lorsque la performance à un test standardisé à choix multiples semble simple, une grande part de subjectivité est impliquée.
Problème 2 : Les examens professionnels ne sont pas un moyen efficace de comparer les capacités humaines et robotiques.La mémoire est comme un spectre, même si le modèle de langage n'a pas vu de question exacte dans l'ensemble de formation, cela est inévitable en raison de la énorme corpus de formation. J'ai vu de nombreux exemples très similaires.
Cela signifie qu’il peut échapper à un raisonnement plus profond. Par conséquent, les résultats du benchmark ne nous fournissent pas la preuve que le modèle de langage acquiert les compétences de raisonnement approfondies requises par les candidats humains.
Dans certaines tâches pratiques, le raisonnement superficiel GPT-4 peut être compétent, mais pas toujours.
Les benchmarks ont été largement utilisés dans les comparaisons de grands modèles et ont été critiqués par beaucoup pour avoir réduit les évaluations multidimensionnelles à un seul nombre.
Malheureusement, OpenAI a choisi d'utiliser un si grand nombre de ces tests dans l'évaluation de GPT-4, couplé à des mesures insuffisantes de traitement de la pollution des données, c'est très regrettable.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!