L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %-IA-php.cn

Table des matières

Maison

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 15, 2023 pm 05:40 PM

ai 图像研究

Lors de la première sortie de DALL-E 2, les peintures générées pouvaient reproduire presque parfaitement le texte saisi. La résolution haute définition et la puissante imagination du dessin ont également amené divers internautes à le qualifier de "trop cool".

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

Mais un nouveau document de recherche de l'Université Harvard montre récemment que même si les images générées par DALL-E 2 sont exquises, il peut simplement coller plusieurs entités dans le texte sans même comprendre le texte pour exprimer la relation spatiale !

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

Lien papier : https://arxiv.org/pdf/2208.00005.pdf

Lien de données : https://osf.io/sm68h/

Par exemple, une invite de texte est donnée sous la forme "Une tasse sur une cuillère", vous pouvez voir que dans les images générées par DALL-E 2, vous pouvez voir que certaines images ne satisfont pas la relation "on".

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

Mais dans l'ensemble d'entraînement, les combinaisons de tasses à thé et de cuillères que DALL-E 2 peut voir sont toutes "in", tandis que "on" est relativement rare, donc la précision dans la génération des deux relations n'est pas la même. . Pas pareil.

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

Ainsi, afin d'explorer si DALL-E 2 peut vraiment comprendre les relations sémantiques dans le texte, les chercheurs ont sélectionné 15 types de relations, dont 8 sont des relations spatiales (relations physiques), y compris dans, sur, sous , couvrant, proche, obstrué par, suspendu et lié à ; 7 relations agentiques, y compris pousser, tirer, toucher, frapper, donner des coups de pied, aider et se cacher

L'entité définie dans le texte est limitée à 12, sélectionnées. Elles sont toutes. éléments simples et communs dans chaque ensemble de données, à savoir : boîte, cylindre, couverture, bol, tasse à thé, couteau ; homme, femme, enfant, robot, singe et iguane.

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

Pour chaque relation de classe, créez 5 invites, au hasard. sélectionnez 2 entités à remplacer à chaque fois et générez enfin 75 invites de texte. Après soumission au moteur de rendu DALL-E 2, les 18 premières images générées ont été sélectionnées, ce qui a donné 1 350 images.

Ensuite, les chercheurs ont sélectionné 169 annotateurs sur 180 grâce à un test de raisonnement de bon sens pour participer au processus d'annotation.

Les résultats expérimentaux ont révélé que la cohérence moyenne entre les images générées par DALL-E 2 et les invites textuelles utilisées pour générer les images n'était que de 22,2 % parmi 75 invites

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

Mais il est difficile de dire ce que DALL-E 2 La question de savoir si la relation dans le texte est véritablement « comprise » est déterminée en observant les scores de cohérence des annotateurs et la signification pour un échantillon unique corrigée par Holm de chaque relation sur la base des seuils consensuels de 0 %, 25 % et 50 %. Le test montre que les taux d'accord des participants pour l'ensemble des 15 relations sont significativement supérieurs à 0 % à α = 0,95 (pHolm

Donc, même sans corriger les comparaisons multiples, le fait est que l'image générée par DALL-E 2 ne comprend pas la relation entre les deux objets dans le texte.

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

Les résultats montrent également que la capacité de DALL-E à connecter deux objets sans rapport n'est peut-être pas aussi forte qu'on l'imaginait. Par exemple, la cohérence de "Un enfant touchant un bol" a atteint 87%, car dans le monde réel. des images, des enfants et des bols apparaissent ensemble assez fréquemment.

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

Cependant, le taux de cohérence final de l'image générée par "Un singe qui touche un iguane" n'est que de 11%, et il peut même y avoir des erreurs d'espèces dans l'image rendue.

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

Ainsi, certaines catégories d'images dans DALL-E 2 sont relativement bien développées, comme les enfants et la nourriture, mais certaines catégories de données nécessitent tout de même une formation continue.

Cependant, actuellement, DALL-E 2 affiche encore principalement son style haute définition et réaliste sur le site officiel. Il n'est pas encore clair s'il « colle deux objets ensemble » ou s'il comprend réellement les informations textuelles avant de générer des images. .

Les chercheurs ont déclaré que la compréhension relationnelle est une composante fondamentale de l'intelligence humaine, et les mauvaises performances du DALL-E 2 dans les relations spatiales de base (par exemple sur, de) indiquent qu'il n'est pas encore capable de construire et de construire avec autant de flexibilité et de robustesse que les humains. Comprendre le monde.

Cependant, les internautes ont déclaré que être capable de développer de la « colle » pour coller les choses ensemble est déjà une belle réussite ! DALL-E 2 n'est pas AGI et il y a encore beaucoup de choses à améliorer dans le futur. Au moins, nous avons ouvert la porte à la génération automatique d'images !

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

D'autres problèmes avec DALL-E 2 ?

En effet, dès la sortie du DALL-E 2, un grand nombre de praticiens ont procédé à une analyse approfondie de ses avantages et inconvénients.

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

Lien du blog : https://www.lesswrong.com/posts/uKp6tBFStnsvrot5t/what-dall-e-2-can-and-cannot-do

Écrire des romans avec GPT-3 est un peu monotone, DALL -E 2 peut générer des illustrations pour des textes et même des bandes dessinées pour des textes longs.

Par exemple, DALL-E 2 peut ajouter des fonctionnalités aux images, telles que "Une femme dans un café travaillant sur son ordinateur portable et portant des écouteurs, peignant par Alphonse Mucha", qui peut générer avec précision des styles de peinture, des cafés, portant des écouteurs, et les ordinateurs portables, etc.

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

Mais si la description de la fonctionnalité dans le texte implique deux personnes, DALL-E 2 peut oublier quelles fonctionnalités appartiennent à quelle personne. Par exemple, le texte saisi est :

un jeune garçon aux cheveux noirs se reposant dans son lit, et une femme âgée aux cheveux gris assise sur une chaise à côté du lit sous une fenêtre avec le soleil qui traverse, art numérique de style Pixar Art numérique de style Pixar sur une chaise à côté du lit, avec la lumière du soleil qui traverse.

On peut voir que DALL-E 2 peut générer correctement des fenêtres, des chaises et des lits, mais les images générées sont légèrement confuses dans la combinaison des caractéristiques d'âge, de sexe et de couleur de cheveux.

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 % Un autre exemple est de laisser "Captain America et Iron Man côte à côte". Vous pouvez voir que le résultat généré a évidemment les caractéristiques de Captain America et Iron Man, mais les éléments spécifiques sont placés sur des personnes différentes (comme Iron L'Homme avec le bouclier de Captain America).

S'il s'agit d'un premier plan et d'un arrière-plan particulièrement détaillés, le modèle risque de ne pas être généré.

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 % Par exemple, le texte saisi est :

Deux chiens habillés comme des soldats romains sur un bateau pirate regardant New York à travers une lunette.

Cette fois, DALL-E 2 a tout simplement cessé de fonctionner. Il a fallu une demi-heure à l'auteur pour comprendre. Au final, il lui a fallu choisir entre "La ville de New York et un bateau pirate" ou "un chien avec un télescope et". un uniforme de soldat romain".

Dall-E 2 peut générer des images en utilisant un arrière-plan générique, comme une ville ou une étagère dans une bibliothèque, mais si ce n'est pas l'objectif principal de l'image, obtenir des détails plus fins devient souvent très difficile.

Bien que DALL-E 2 puisse générer des objets courants, tels que diverses chaises fantaisie, si vous lui demandez de générer un "vélo Alto", l'image résultante sera quelque peu similaire à un vélo, mais pas exactement.

Et la recherche Otto Bicycle sous Google Images est la suivante.

DALL-E 2 est également incapable d'épeler, mais épellera occasionnellement un mot correctement par coïncidence totale, par exemple en lui faisant écrire STOP sur un panneau d'arrêt L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

Bien que le modèle produise des lettres anglaises "reconnaissables", mais la sémantique connectée est toujours différente des mots attendus. C'est là que le DALL-E 2 n'est pas aussi bon que le DALL-E de première génération.

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

Lors de la génération d'images liées aux instruments de musique, DALL-E 2 semble se souvenir de la position de la main humaine lors du jeu, mais sans cordes, jouer est un peu gênant.

DALL-E 2 propose également une fonction d'édition. Par exemple, après avoir généré une image, vous pouvez utiliser le curseur pour mettre en surbrillance sa zone et ajouter une description complète de la modification. L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

Mais cette fonction n'est pas toujours efficace. Par exemple, si vous souhaitez ajouter des « cheveux courts » à l'image originale, la fonction d'édition ajoutera toujours quelque chose à des endroits étranges.

L'Université Harvard a foiré : DALL-E 2 n'est qu'un 'monstre de colle', et la précision de sa génération n'est que de 22 %

La technologie est constamment mise à jour et développée, dans l'attente du DALL-E 3 !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Commandes de chat et comment les utiliser

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7530

Tutoriel CakePHP

1379

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Conseils de configuration du pare-feu Debian Mail Server Apr 13, 2025 am 11:42 AM

La configuration du pare-feu d'un serveur de courrier Debian est une étape importante pour assurer la sécurité du serveur. Voici plusieurs méthodes de configuration de pare-feu couramment utilisées, y compris l'utilisation d'iptables et de pare-feu. Utilisez les iptables pour configurer le pare-feu pour installer iptables (sinon déjà installé): Sudoapt-getUpDaSuDoapt-getinstalliptableView Règles actuelles iptables: Sudoiptable-L Configuration

Comment définir le niveau de journal Debian Apache Apr 13, 2025 am 08:33 AM

Cet article décrit comment ajuster le niveau de journalisation du serveur Apacheweb dans le système Debian. En modifiant le fichier de configuration, vous pouvez contrôler le niveau verbeux des informations de journal enregistrées par Apache. Méthode 1: Modifiez le fichier de configuration principal pour localiser le fichier de configuration: le fichier de configuration d'Apache2.x est généralement situé dans le répertoire / etc / apache2 /. Le nom de fichier peut être apache2.conf ou httpd.conf, selon votre méthode d'installation. Modifier le fichier de configuration: Ouvrez le fichier de configuration avec les autorisations racine à l'aide d'un éditeur de texte (comme Nano): Sutonano / etc / apache2 / apache2.conf

Comment Debian Readdir s'intègre à d'autres outils Apr 13, 2025 am 09:42 AM

La fonction ReadDir dans le système Debian est un appel système utilisé pour lire le contenu des répertoires et est souvent utilisé dans la programmation C. Cet article expliquera comment intégrer ReadDir avec d'autres outils pour améliorer sa fonctionnalité. Méthode 1: combinant d'abord le programme de langue C et le pipeline, écrivez un programme C pour appeler la fonction readdir et sortir le résultat: # include # include # include # includeIntmain (intargc, char * argv []) {dir * dir; structDirent * entrée; if (argc! = 2) {

Comment optimiser les performances de Debian Readdir Apr 13, 2025 am 08:48 AM

Dans Debian Systems, les appels du système ReadDir sont utilisés pour lire le contenu des répertoires. Si ses performances ne sont pas bonnes, essayez la stratégie d'optimisation suivante: simplifiez le nombre de fichiers d'annuaire: divisez les grands répertoires en plusieurs petits répertoires autant que possible, en réduisant le nombre d'éléments traités par appel ReadDir. Activer la mise en cache de contenu du répertoire: construire un mécanisme de cache, mettre à jour le cache régulièrement ou lorsque le contenu du répertoire change et réduire les appels fréquents à Readdir. Les caches de mémoire (telles que Memcached ou Redis) ou les caches locales (telles que les fichiers ou les bases de données) peuvent être prises en compte. Adoptez une structure de données efficace: si vous implémentez vous-même la traversée du répertoire, sélectionnez des structures de données plus efficaces (telles que les tables de hachage au lieu de la recherche linéaire) pour stocker et accéder aux informations du répertoire

Comment implémenter le tri des fichiers par Debian Readdir Apr 13, 2025 am 09:06 AM

Dans Debian Systems, la fonction ReadDir est utilisée pour lire le contenu du répertoire, mais l'ordre dans lequel il revient n'est pas prédéfini. Pour trier les fichiers dans un répertoire, vous devez d'abord lire tous les fichiers, puis les trier à l'aide de la fonction QSORT. Le code suivant montre comment trier les fichiers de répertoire à l'aide de ReadDir et QSort dans Debian System: # include # include # include # include # include // Fonction de comparaison personnalisée, utilisée pour qsortintCompare (constvoid * a, constvoid * b) {returnstrcmp (* (

Méthode d'installation du certificat de Debian Mail Server SSL Apr 13, 2025 am 11:39 AM

Les étapes pour installer un certificat SSL sur le serveur de messagerie Debian sont les suivantes: 1. Installez d'abord la boîte à outils OpenSSL, assurez-vous que la boîte à outils OpenSSL est déjà installée sur votre système. Si ce n'est pas installé, vous pouvez utiliser la commande suivante pour installer: Sudoapt-getUpDaSuDoapt-getInstallOpenSSL2. Générer la clé privée et la demande de certificat Suivant, utilisez OpenSSL pour générer une clé privée RSA 2048 bits et une demande de certificat (RSE): OpenSS

Comment effectuer une vérification de la signature numérique avec Debian OpenSSL Apr 13, 2025 am 11:09 AM

En utilisant OpenSSL pour la vérification de la signature numérique sur Debian System, vous pouvez suivre ces étapes: Préparation à installer OpenSSL: Assurez-vous que votre système Debian a installé OpenSSL. Si vous n'êtes pas installé, vous pouvez utiliser la commande suivante pour l'installer: SudoaptupDaSudoaptinInStallOpenssl pour obtenir la clé publique: la vérification de la signature numérique nécessite la clé publique du signataire. En règle générale, la clé publique sera fournie sous la forme d'un fichier, comme public_key.pe

Comment Debian OpenSSL empêche les attaques de l'homme au milieu Apr 13, 2025 am 10:30 AM

Dans Debian Systems, OpenSSL est une bibliothèque importante pour le chiffrement, le décryptage et la gestion des certificats. Pour empêcher une attaque d'homme dans le milieu (MITM), les mesures suivantes peuvent être prises: utilisez HTTPS: assurez-vous que toutes les demandes de réseau utilisent le protocole HTTPS au lieu de HTTP. HTTPS utilise TLS (Protocole de sécurité de la couche de transport) pour chiffrer les données de communication pour garantir que les données ne sont pas volées ou falsifiées pendant la transmission. Vérifiez le certificat de serveur: vérifiez manuellement le certificat de serveur sur le client pour vous assurer qu'il est digne de confiance. Le serveur peut être vérifié manuellement via la méthode du délégué d'URLSession

See all articles