


GPT-4 a été révélé comme une triche ! LeCun appelle à la prudence lors des tests sur les ensembles d'entraînement, les chihuahuas ou les commandes de muffins, une confusion entraîne des erreurs
GPT-4 a résolu le célèbre mème Internet "Chihuahua ou gaufre aux myrtilles", qui a autrefois étonné d'innombrables personnes.
Cependant, il est désormais accusé de « tricherie » !
Images
Les images qui apparaissent dans le titre original sont toutes utilisées, mais l'ordre et la disposition sont foirés.
La dernière version de GPT-4 est célèbre pour sa fonctionnalité tout-en-un. Cependant, étonnamment, il a fait des erreurs dans le nombre d'images qu'il a reconnues, et même le Chihuahua, qui avait été correctement reconnu à l'origine, avait également des erreurs de reconnaissance
Photos
La raison pour laquelle GPT-4 a si bien fonctionné sur l'original l'image est quoi ?
Selon les spéculations du professeur adjoint de l'UCSC Xin Eric Wang, la raison pour laquelle nous avons effectué ce test est que les images originales sur Internet sont trop populaires. Il pense que GPT-4 a rencontré les réponses originales à plusieurs reprises au cours du processus de formation et les a mémorisées avec succès
LeCun, l'un des trois lauréats du prix Turing, a également prêté attention à cette question et a déclaré :
Méfiez-vous de la formation ensemble d'essais.
Photos
On ne peut pas distinguer Teddy et le poulet frit
Quelle est la popularité de l'image originale ? Non seulement c'est un mème Internet célèbre, mais elle est même devenue un problème classique dans le domaine de la vision par ordinateur, et est devenue apparu à plusieurs reprises dans des sujets connexes Recherche de thèse en cours.
Photos
Compte tenu des aspects limités des capacités de GPT-4, de nombreux internautes ont proposé leurs propres plans de test, quel que soit l'impact de l'image originale
Afin d'exclure si l'arrangement est trop compliqué et n'a aucun impact, certaines personnes l'ont modifié en un simple. L'arrangement 3x3 admet également beaucoup d'erreurs.
Photos
Photos
Quelqu'un a démonté certaines photos et les a envoyées à GPT-4 individuellement, et a obtenu un taux de précision de 5/5.
Pictures
Xin Eric Wang estime que rassembler ces images facilement confuses est au cœur de ce défi
Pictures
En fin de compte, quelqu'un a réussi à utiliser les deux pour faire en sorte que l'intelligence artificielle « respire profondément " et "Réfléchissez étape par étape" sont les deux conseils clés et obtenez les bons résultats
Photos
Le libellé GPT-4 dans la réponse "Ceci est un exemple de jeu de mots visuel ou de mème célèbre", a également exposé que l'image originale peut effectivement exister dans les données d'entraînement. Reformulé comme suit : Cependant, GPT-4 a utilisé dans sa réponse : "Ceci est un exemple de jeu de mots visuel ou de mème célèbre", ce qui révèle également que l'image originale peut effectivement exister dans les données d'entraînement
image
Enfin, quelqu'un a également testé le test « peluche ou poulet frit » qui apparaît souvent ensemble, et a constaté que GPT-4 ne pouvait pas bien le distinguer.
Photo
Cette "haricot myrtille ou chocolat" est un peu trop...
Images
Les illusions visuelles sont devenues une direction populaire
Le « non-sens » des grands modèles est appelé un problème d'illusion dans le monde universitaire. Le problème de l'illusion visuelle des grands modèles multimodaux est récemment devenu une direction de recherche populaire.
Dans une étude à l'EMNLP 2023, nous avons créé l'ensemble de données GVIL, qui contient 1600 points de données et mené une évaluation systématique du problème des illusions visuelles
Photos
Une étude montre qu'à plus grande échelle, les modèles sont plus susceptibles aux illusions et sont plus proches de la perception humaine. peut-être en raison de déséquilibres dans les données d'entraînement.
Des interférences peuvent survenir en raison de la façon dont l'invite de texte est formulée ou de la façon dont l'image d'entrée est présentée, entraînant la suppression d'autres scènes.
Photos
L'étude a souligné que GPT-4V est souvent confus lors de l'interprétation de plusieurs images ensemble et fonctionne mieux lors de l'envoi d'images individuellement, conformément aux observations du test "Chihuahua ou Waffle".
- Photos
- Les mesures d'atténuation populaires, telles que l'autocorrection et les invites de chaîne de pensée, ne résolvent pas efficacement ces problèmes, et les tests montrent que les modèles multimodaux tels que LLaVA et Bard ont également des problèmes similaires
Par exemple, GPT-4V peut compter correctement sept nains + Blanche-Neige, mais il compte sept poupées gourdes au lieu de 10.
Photos
Liens de référence : [1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv.org/abs/2311.00047[3]https://arxiv. org/abs/2311.03287
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











GPT-4 a résolu le célèbre mème Internet « Chihuahua ou gaufre aux myrtilles », qui a autrefois étonné d'innombrables personnes. Mais maintenant, on l'accuse de « tricherie » ! Les images sont toutes celles qui apparaissent dans le titre original, mais l'ordre et la disposition sont foirés. La dernière version de GPT-4 est célèbre pour sa fonctionnalité tout-en-un. Cependant, ce qui est surprenant, c'est qu'il a fait des erreurs dans le nombre d'images qu'il a reconnues, et même le Chihuahua, qui avait été correctement reconnu à l'origine, a également reconnu des images incorrectes. Quelle est la raison pour laquelle GPT-4 fonctionne si bien sur l'image originale ? Selon l'hypothèse du professeur adjoint XinEricWang de l'UCSC, la raison de ce test est que les images originales sur Internet sont trop populaires. Il pense que GPT-4 a rencontré les réponses originales à plusieurs reprises au cours de la formation et les a mémorisées avec succès. Turing

1. Le projet LLaMALLaMA contient un ensemble de modèles de langage de base avec des tailles allant de 7 milliards à 65 milliards de paramètres. Ces modèles sont formés sur des millions de jetons et sont entièrement formés sur des ensembles de données accessibles au public. En conséquence, le LLaMA-13B a surpassé le GPT-3 (175B), tandis que le LLaMA-65B a eu des performances similaires aux meilleurs modèles tels que le Chinchilla-70B et le PaLM-540B. Image tirée des ressources de LLaMA : Document de recherche : "LLaMA : OpenandEfficientFoundationLanguageModels(arxiv.org)" [https://arxiv.or

Jusqu'où pouvez-vous aller avec des modèles visuels (pixels) seuls ? Un nouvel article de l'UC Berkeley et de l'Université Johns Hopkins explore cette question et démontre le potentiel des modèles de grande vision (LVM) sur une variété de tâches CV. Ces derniers temps, les grands modèles de langage (LLM) tels que GPT et LLaMA sont devenus populaires dans le monde entier. La construction de modèles à grande vision (LVM) est un problème très préoccupant. De quoi avons-nous besoin pour y parvenir ? Les idées fournies par les modèles de langage visuel tels que LLaVA sont intéressantes et méritent d’être explorées, mais selon les lois du règne animal, nous savons déjà que la capacité visuelle et la capacité linguistique ne sont pas liées. Par exemple, de nombreuses expériences ont montré que le monde visuel des primates non humains est très similaire à celui des humains, même s’ils ont des systèmes linguistiques différents de ceux des humains.

Actuellement, GPT-4Vision présente des capacités étonnantes en matière de compréhension du langage et de traitement visuel. Cependant, pour ceux qui recherchent une alternative rentable sans compromettre les performances, l’open source est une option au potentiel illimité. Youssef Hosni est un développeur étranger qui nous propose trois alternatives open source avec une accessibilité absolument garantie pour remplacer GPT-4V. Les trois modèles de langage visuel open source LLaVa, CogAgent et BakLLaVA ont un grand potentiel dans le domaine du traitement visuel et méritent notre compréhension approfondie. La recherche et le développement de ces modèles peuvent nous fournir des solutions de traitement visuel plus efficaces et plus précises. En appliquant ces modèles, nous pouvons améliorer le graphique

La liste faisant autorité du « Concours de qualification des grands modèles » ChatbotArena actualisée : Google Bard a dépassé GPT-4 et s'est classé deuxième, juste derrière GPT-4 Turbo. Cependant, de nombreux internautes ont exprimé leur « mécontentement » et leur « injustice » à ce sujet. Il s’avère que Jeff Dean, responsable de l’IA de Google, a révélé que les performances de Bard ont été grandement améliorées car il est équipé d’une nouvelle version du grand modèle Gemini Pro-scale. Cela signifie également que Bard jouant dans des « matchs classés » a la possibilité de se connecter à Internet. Les doutes des internautes tournent autour de ce point : mélanger de grands modèles en ligne et hors ligne sur un même classement est extrêmement facile à provoquer des malentendus. Omar Sanseviero, « Chief Alpaca Officer » de HuggingFace, également

ChatGPT et GoogleBard sont tous deux des chatbots à intelligence artificielle conçus pour générer des réponses aux invites saisies par l'utilisateur. S'ils sont utilisés correctement, ChatGPT et GoogleBard peuvent être utilisés pour prendre en charge certains processus métier dans la production et le développement de contenu. Lisez cet article pour en savoir plus sur les fonctionnalités, les avantages et les inconvénients de chaque outil et voir lequel convient le mieux à votre entreprise. Qu’est-ce que ChatGPT ? ChatGPT est un chatbot d'intelligence artificielle développé par OpenAI qui peut générer des réponses de type humain basées sur le texte saisi par l'utilisateur. Il a été formé sur un grand nombre de grands modèles de langage. Qu'est-ce que GoogleBard ? GoogleBard est également un chatbot à intelligence artificielle. avec ChatG

Dans sa quête continue d'optimisation de l'expérience utilisateur de l'intelligence artificielle, Google a lancé Bard, le système de conversation le plus récent et le plus avancé.

Faire en sorte que de grands modèles comprennent à la fois les images et le texte peut être plus difficile que vous ne le pensez. Après l'ouverture de la première conférence des développeurs d'OpenAI, connue sous le nom de « AI Spring Festival Gala », de nombreux cercles d'amis ont été inondés de nouveaux produits lancés par l'entreprise, tels que les GPT, qui permettent de personnaliser les applications sans écrire de code GPT-4. API visuelle pour commenter les matchs de football et même les jeux "League of Legends", etc. Cependant, alors que tout le monde loue la facilité d'utilisation de ces produits, certaines personnes ont découvert des faiblesses, soulignant que les modèles multimodaux puissants comme le GPT-4V ont encore de grandes illusions et des défauts visuels de base, tels que. ne pas être capable de distinguer des images similaires telles que « gâteau chanté et Chihuahua », « chien en peluche et poulet frit ». GPT-4V ne peut pas faire la différence entre une génoise et un Chihuahua. Source : Xi
