GPT-4 a résolu le célèbre mème Internet "Chihuahua ou gaufre aux myrtilles", qui a autrefois étonné d'innombrables personnes.
Cependant, il est désormais accusé de « tricherie » !
Images
Les images qui apparaissent dans le titre original sont toutes utilisées, mais l'ordre et la disposition sont foirés.
La dernière version de GPT-4 est célèbre pour sa fonctionnalité tout-en-un. Cependant, étonnamment, il a fait des erreurs dans le nombre d'images qu'il a reconnues, et même le Chihuahua, qui avait été correctement reconnu à l'origine, avait également des erreurs de reconnaissance
Photos
La raison pour laquelle GPT-4 a si bien fonctionné sur l'original l'image est quoi ?
Selon les spéculations du professeur adjoint de l'UCSC Xin Eric Wang, la raison pour laquelle nous avons effectué ce test est que les images originales sur Internet sont trop populaires. Il pense que GPT-4 a rencontré les réponses originales à plusieurs reprises au cours du processus de formation et les a mémorisées avec succès
LeCun, l'un des trois lauréats du prix Turing, a également prêté attention à cette question et a déclaré :
Méfiez-vous de la formation ensemble d'essais.
Photos
Quelle est la popularité de l'image originale ? Non seulement c'est un mème Internet célèbre, mais elle est même devenue un problème classique dans le domaine de la vision par ordinateur, et est devenue apparu à plusieurs reprises dans des sujets connexes Recherche de thèse en cours.
Photos
Compte tenu des aspects limités des capacités de GPT-4, de nombreux internautes ont proposé leurs propres plans de test, quel que soit l'impact de l'image originale
Afin d'exclure si l'arrangement est trop compliqué et n'a aucun impact, certaines personnes l'ont modifié en un simple. L'arrangement 3x3 admet également beaucoup d'erreurs.
Photos
Photos
Quelqu'un a démonté certaines photos et les a envoyées à GPT-4 individuellement, et a obtenu un taux de précision de 5/5.
Pictures
Xin Eric Wang estime que rassembler ces images facilement confuses est au cœur de ce défi
Pictures
En fin de compte, quelqu'un a réussi à utiliser les deux pour faire en sorte que l'intelligence artificielle « respire profondément " et "Réfléchissez étape par étape" sont les deux conseils clés et obtenez les bons résultats
Photos
Le libellé GPT-4 dans la réponse "Ceci est un exemple de jeu de mots visuel ou de mème célèbre", a également exposé que l'image originale peut effectivement exister dans les données d'entraînement. Reformulé comme suit : Cependant, GPT-4 a utilisé dans sa réponse : "Ceci est un exemple de jeu de mots visuel ou de mème célèbre", ce qui révèle également que l'image originale peut effectivement exister dans les données d'entraînement
image
Enfin, quelqu'un a également testé le test « peluche ou poulet frit » qui apparaît souvent ensemble, et a constaté que GPT-4 ne pouvait pas bien le distinguer.
Photo
Cette "haricot myrtille ou chocolat" est un peu trop...
Images
Le « non-sens » des grands modèles est appelé un problème d'illusion dans le monde universitaire. Le problème de l'illusion visuelle des grands modèles multimodaux est récemment devenu une direction de recherche populaire.
Dans une étude à l'EMNLP 2023, nous avons créé l'ensemble de données GVIL, qui contient 1600 points de données et mené une évaluation systématique du problème des illusions visuelles
Photos
Une étude montre qu'à plus grande échelle, les modèles sont plus susceptibles aux illusions et sont plus proches de la perception humaine. peut-être en raison de déséquilibres dans les données d'entraînement.
Des interférences peuvent survenir en raison de la façon dont l'invite de texte est formulée ou de la façon dont l'image d'entrée est présentée, entraînant la suppression d'autres scènes.
Photos
L'étude a souligné que GPT-4V est souvent confus lors de l'interprétation de plusieurs images ensemble et fonctionne mieux lors de l'envoi d'images individuellement, conformément aux observations du test "Chihuahua ou Waffle".
Par exemple, GPT-4V peut compter correctement sept nains + Blanche-Neige, mais il compte sept poupées gourdes au lieu de 10.
Photos
Liens de référence : [1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv.org/abs/2311.00047[3]https://arxiv. org/abs/2311.03287
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!