Table des matières

On ne peut pas distinguer Teddy et le poulet frit

Les illusions visuelles sont devenues une direction populaire

Maison

GPT-4 a été révélé comme une triche ! LeCun appelle à la prudence lors des tests sur les ensembles d'entraînement, les chihuahuas ou les commandes de muffins, une confusion entraîne des erreurs

GPT-4 a été révélé comme une triche ! LeCun appelle à la prudence lors des tests sur les ensembles d'entraînement, les chihuahuas ou les commandes de muffins, une confusion entraîne des erreurs

PHPz

Nov 13, 2023 pm 08:17 PM

bard gpt-4v llava

GPT-4 a résolu le célèbre mème Internet "Chihuahua ou gaufre aux myrtilles", qui a autrefois étonné d'innombrables personnes.

Cependant, il est désormais accusé de « tricherie » !

Les images qui apparaissent dans le titre original sont toutes utilisées, mais l'ordre et la disposition sont foirés.

La dernière version de GPT-4 est célèbre pour sa fonctionnalité tout-en-un. Cependant, étonnamment, il a fait des erreurs dans le nombre d'images qu'il a reconnues, et même le Chihuahua, qui avait été correctement reconnu à l'origine, avait également des erreurs de reconnaissance

La raison pour laquelle GPT-4 a si bien fonctionné sur l'original l'image est quoi ?

Selon les spéculations du professeur adjoint de l'UCSC Xin Eric Wang, la raison pour laquelle nous avons effectué ce test est que les images originales sur Internet sont trop populaires. Il pense que GPT-4 a rencontré les réponses originales à plusieurs reprises au cours du processus de formation et les a mémorisées avec succès

LeCun, l'un des trois lauréats du prix Turing, a également prêté attention à cette question et a déclaré :

Méfiez-vous de la formation ensemble d'essais.

On ne peut pas distinguer Teddy et le poulet frit

Quelle est la popularité de l'image originale ? Non seulement c'est un mème Internet célèbre, mais elle est même devenue un problème classique dans le domaine de la vision par ordinateur, et est devenue apparu à plusieurs reprises dans des sujets connexes Recherche de thèse en cours.

Compte tenu des aspects limités des capacités de GPT-4, de nombreux internautes ont proposé leurs propres plans de test, quel que soit l'impact de l'image originale

Afin d'exclure si l'arrangement est trop compliqué et n'a aucun impact, certaines personnes l'ont modifié en un simple. L'arrangement 3x3 admet également beaucoup d'erreurs.

Quelqu'un a démonté certaines photos et les a envoyées à GPT-4 individuellement, et a obtenu un taux de précision de 5/5.

Xin Eric Wang estime que rassembler ces images facilement confuses est au cœur de ce défi

En fin de compte, quelqu'un a réussi à utiliser les deux pour faire en sorte que l'intelligence artificielle « respire profondément " et "Réfléchissez étape par étape" sont les deux conseils clés et obtenez les bons résultats

Le libellé GPT-4 dans la réponse "Ceci est un exemple de jeu de mots visuel ou de mème célèbre", a également exposé que l'image originale peut effectivement exister dans les données d'entraînement. Reformulé comme suit : Cependant, GPT-4 a utilisé dans sa réponse : "Ceci est un exemple de jeu de mots visuel ou de mème célèbre", ce qui révèle également que l'image originale peut effectivement exister dans les données d'entraînement

Enfin, quelqu'un a également testé le test « peluche ou poulet frit » qui apparaît souvent ensemble, et a constaté que GPT-4 ne pouvait pas bien le distinguer.

Cette "haricot myrtille ou chocolat" est un peu trop...

Les illusions visuelles sont devenues une direction populaire

Le « non-sens » des grands modèles est appelé un problème d'illusion dans le monde universitaire. Le problème de l'illusion visuelle des grands modèles multimodaux est récemment devenu une direction de recherche populaire.

Dans une étude à l'EMNLP 2023, nous avons créé l'ensemble de données GVIL, qui contient 1600 points de données et mené une évaluation systématique du problème des illusions visuelles

Une étude montre qu'à plus grande échelle, les modèles sont plus susceptibles aux illusions et sont plus proches de la perception humaine. peut-être en raison de déséquilibres dans les données d'entraînement.

Des interférences peuvent survenir en raison de la façon dont l'invite de texte est formulée ou de la façon dont l'image d'entrée est présentée, entraînant la suppression d'autres scènes. GPT-4 a été révélé comme une triche ! LeCun appelle à la prudence lors des tests sur les ensembles dentraînement, les chihuahuas ou les commandes de muffins, une confusion entraîne des erreurs

Photos

GPT-4 a été révélé comme une triche ! LeCun appelle à la prudence lors des tests sur les ensembles dentraînement, les chihuahuas ou les commandes de muffins, une confusion entraîne des erreurs L'étude a souligné que GPT-4V est souvent confus lors de l'interprétation de plusieurs images ensemble et fonctionne mieux lors de l'envoi d'images individuellement, conformément aux observations du test "Chihuahua ou Waffle".

Les mesures d'atténuation populaires, telles que l'autocorrection et les invites de chaîne de pensée, ne résolvent pas efficacement ces problèmes, et les tests montrent que les modèles multimodaux tels que LLaVA et Bard ont également des problèmes similaires

De plus , la recherche a également révélé que GPT-4V est meilleur pour interpréter les images ayant des origines culturelles occidentales ou les images avec du texte anglais.

GPT-4 a été révélé comme une triche ! LeCun appelle à la prudence lors des tests sur les ensembles dentraînement, les chihuahuas ou les commandes de muffins, une confusion entraîne des erreurs Par exemple, GPT-4V peut compter correctement sept nains + Blanche-Neige, mais il compte sept poupées gourdes au lieu de 10.

Photos

GPT-4 a été révélé comme une triche ! LeCun appelle à la prudence lors des tests sur les ensembles dentraînement, les chihuahuas ou les commandes de muffins, une confusion entraîne des erreurs Liens de référence : [1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv.org/abs/2311.00047[3]https://arxiv. org/abs/2311.03287

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

3 Il y a quelques semaines By DDD

Comment réparer KB5055518 ne parvient pas à s'installer dans Windows 10?

3 Il y a quelques semaines By DDD

<🎜>: Grow A Garden - Guide de mutation complet

2 Il y a quelques semaines By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1662

Tutoriel CakePHP

1419

Tutoriel Laravel

1313

Tutoriel PHP

1262

Tutoriel C#

1235

Afficher plus

Related knowledge

GPT-4 a été révélé comme une triche ! LeCun appelle à la prudence lors des tests sur les ensembles d'entraînement, les chihuahuas ou les commandes de muffins, une confusion entraîne des erreurs

GPT-4 a résolu le célèbre mème Internet « Chihuahua ou gaufre aux myrtilles », qui a autrefois étonné d'innombrables personnes. Mais maintenant, on l'accuse de « tricherie » ! Les images sont toutes celles qui apparaissent dans le titre original, mais l'ordre et la disposition sont foirés. La dernière version de GPT-4 est célèbre pour sa fonctionnalité tout-en-un. Cependant, ce qui est surprenant, c'est qu'il a fait des erreurs dans le nombre d'images qu'il a reconnues, et même le Chihuahua, qui avait été correctement reconnu à l'origine, a également reconnu des images incorrectes. Quelle est la raison pour laquelle GPT-4 fonctionne si bien sur l'image originale ? Selon l'hypothèse du professeur adjoint XinEricWang de l'UCSC, la raison de ce test est que les images originales sur Internet sont trop populaires. Il pense que GPT-4 a rencontré les réponses originales à plusieurs reprises au cours de la formation et les a mémorisées avec succès. Turing

Présentation de huit solutions de grands modèles gratuites et open source car ChatGPT et Bard sont trop chers. May 08, 2023 pm 10:13 PM

1. Le projet LLaMALLaMA contient un ensemble de modèles de langage de base avec des tailles allant de 7 milliards à 65 milliards de paramètres. Ces modèles sont formés sur des millions de jetons et sont entièrement formés sur des ensembles de données accessibles au public. En conséquence, le LLaMA-13B a surpassé le GPT-3 (175B), tandis que le LLaMA-65B a eu des performances similaires aux meilleurs modèles tels que le Chinchilla-70B et le PaLM-540B. Image tirée des ressources de LLaMA : Document de recherche : "LLaMA : OpenandEfficientFoundationLanguageModels(arxiv.org)" [https://arxiv.or

L'UC Berkeley a développé avec succès un vaste modèle de raisonnement visuel général, et trois chercheurs chevronnés ont uni leurs forces pour participer à la recherche. Dec 04, 2023 pm 06:25 PM

Jusqu'où pouvez-vous aller avec des modèles visuels (pixels) seuls ? Un nouvel article de l'UC Berkeley et de l'Université Johns Hopkins explore cette question et démontre le potentiel des modèles de grande vision (LVM) sur une variété de tâches CV. Ces derniers temps, les grands modèles de langage (LLM) tels que GPT et LLaMA sont devenus populaires dans le monde entier. La construction de modèles à grande vision (LVM) est un problème très préoccupant. De quoi avons-nous besoin pour y parvenir ? Les idées fournies par les modèles de langage visuel tels que LLaVA sont intéressantes et méritent d’être explorées, mais selon les lois du règne animal, nous savons déjà que la capacité visuelle et la capacité linguistique ne sont pas liées. Par exemple, de nombreuses expériences ont montré que le monde visuel des primates non humains est très similaire à celui des humains, même s’ils ont des systèmes linguistiques différents de ceux des humains.

L'Université Tsinghua et l'Université du Zhejiang mènent l'explosion des modèles visuels open source, et GPT-4V, LLaVA, CogAgent et d'autres plateformes apportent des changements révolutionnaires Jan 04, 2024 am 08:10 AM

Actuellement, GPT-4Vision présente des capacités étonnantes en matière de compréhension du langage et de traitement visuel. Cependant, pour ceux qui recherchent une alternative rentable sans compromettre les performances, l’open source est une option au potentiel illimité. Youssef Hosni est un développeur étranger qui nous propose trois alternatives open source avec une accessibilité absolument garantie pour remplacer GPT-4V. Les trois modèles de langage visuel open source LLaVa, CogAgent et BakLLaVA ont un grand potentiel dans le domaine du traitement visuel et méritent notre compréhension approfondie. La recherche et le développement de ces modèles peuvent nous fournir des solutions de traitement visuel plus efficaces et plus précises. En appliquant ces modèles, nous pouvons améliorer le graphique

GPT-4 a refusé d'accepter et a été dépassé par Bard : le dernier modèle est entré sur le marché Feb 01, 2024 pm 05:39 PM

La liste faisant autorité du « Concours de qualification des grands modèles » ChatbotArena actualisée : Google Bard a dépassé GPT-4 et s'est classé deuxième, juste derrière GPT-4 Turbo. Cependant, de nombreux internautes ont exprimé leur « mécontentement » et leur « injustice » à ce sujet. Il s’avère que Jeff Dean, responsable de l’IA de Google, a révélé que les performances de Bard ont été grandement améliorées car il est équipé d’une nouvelle version du grand modèle Gemini Pro-scale. Cela signifie également que Bard jouant dans des « matchs classés » a la possibilité de se connecter à Internet. Les doutes des internautes tournent autour de ce point : mélanger de grands modèles en ligne et hors ligne sur un même classement est extrêmement facile à provoquer des malentendus. Omar Sanseviero, « Chief Alpaca Officer » de HuggingFace, également

ChatGPT vs Google Bard (2023) : comparaison approfondie Jun 08, 2023 pm 05:10 PM

ChatGPT et GoogleBard sont tous deux des chatbots à intelligence artificielle conçus pour générer des réponses aux invites saisies par l'utilisateur. S'ils sont utilisés correctement, ChatGPT et GoogleBard peuvent être utilisés pour prendre en charge certains processus métier dans la production et le développement de contenu. Lisez cet article pour en savoir plus sur les fonctionnalités, les avantages et les inconvénients de chaque outil et voir lequel convient le mieux à votre entreprise. Qu’est-ce que ChatGPT ? ChatGPT est un chatbot d'intelligence artificielle développé par OpenAI qui peut générer des réponses de type humain basées sur le texte saisi par l'utilisateur. Il a été formé sur un grand nombre de grands modèles de langage. Qu'est-ce que GoogleBard ? GoogleBard est également un chatbot à intelligence artificielle. avec ChatG

Bard : un nouveau concurrent de ChatGPT Nov 08, 2023 am 11:46 AM

Dans sa quête continue d'optimisation de l'expérience utilisateur de l'intelligence artificielle, Google a lancé Bard, le système de conversation le plus récent et le plus avancé.

Même les gourdes n'arrivent pas à le comprendre, GPT-4V, qui explique League of Legends, fait face à des défis d'hallucination Nov 13, 2023 pm 09:21 PM

Faire en sorte que de grands modèles comprennent à la fois les images et le texte peut être plus difficile que vous ne le pensez. Après l'ouverture de la première conférence des développeurs d'OpenAI, connue sous le nom de « AI Spring Festival Gala », de nombreux cercles d'amis ont été inondés de nouveaux produits lancés par l'entreprise, tels que les GPT, qui permettent de personnaliser les applications sans écrire de code GPT-4. API visuelle pour commenter les matchs de football et même les jeux "League of Legends", etc. Cependant, alors que tout le monde loue la facilité d'utilisation de ces produits, certaines personnes ont découvert des faiblesses, soulignant que les modèles multimodaux puissants comme le GPT-4V ont encore de grandes illusions et des défauts visuels de base, tels que. ne pas être capable de distinguer des images similaires telles que « gâteau chanté et Chihuahua », « chien en peluche et poulet frit ». GPT-4V ne peut pas faire la différence entre une génoise et un Chihuahua. Source : Xi

See all articles