Table des matières
Aperçu du papier Imagic
Détails de la méthode
Résultats expérimentaux
Maison Périphériques technologiques IA Je ne peux pas l'arrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte

Je ne peux pas l'arrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte

Apr 11, 2023 pm 08:01 PM
ai 模型

Je ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte

C'est le souhait commun de la partie A et de la partie B de pouvoir améliorer la situation en quelques mots, mais généralement seule la partie B connaît la douleur et le chagrin que cela implique. Aujourd’hui, l’IA s’attaque à ce problème difficile.

Dans un article mis en ligne sur arXiv le 17 octobre, des chercheurs de Google Research, de l'Institut israélien de technologie et de l'Institut Weizmann des sciences en Israël ont présenté une véritable méthode d'édition d'images basée sur le modèle de diffusion— —Imagic, vous pouvez utilisez uniquement du texte pour réaliser le PS de vraies photos, comme demander à une personne de lever le pouce ou à deux perroquets d'embrasser :

Je ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte

"S'il vous plaît, aidez-moi avec un geste similaire. "Modèle de diffusion : Pas de problème, je vais le couvrir."

Comme le montrent les images du journal, les images modifiées sont toujours très naturelles et il n'y a aucun dommage évident aux informations autres que le contenu qui doit être modifié. Des recherches similaires incluent le Prompt-to-Prompt précédemment réalisé par Google Research et l'Université de Tel Aviv en Israël (référence [16] dans l'article Imagic) :

Je ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte

Lien du projet (y compris l'article, le code) :https ://prompt-to-prompt.github.io/

Par conséquent, certaines personnes ont déploré que "les changements dans ce domaine soient si rapides que c'est un peu exagéré. Désormais, le Parti A peut vraiment changer quoi que ce soit". il veut avec juste un mot Changé.

Aperçu du papier Imagic

Je ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte

Lien du papier : ​https://arxiv.org/pdf/2210.09276.pdf​

Appliquer une édition sémantique drastique à de vraies photos a toujours été un défi Une tâche intéressante en traitement d'image. Cette tâche a suscité un intérêt considérable de la part de la communauté des chercheurs, car les systèmes basés sur l'apprentissage profond ont fait des progrès considérables ces dernières années.

L'utilisation de simples invites textuelles en langage naturel pour décrire ce que nous voulons modifier (comme demander à un chien de s'asseoir) est tout à fait cohérente avec la façon dont les humains communiquent. Par conséquent, les chercheurs ont développé de nombreuses méthodes d’édition d’images basées sur du texte, et ces méthodes sont également efficaces.

Cependant, les méthodes traditionnelles actuelles posent plus ou moins de problèmes, tels que :

1 Limitées à un ensemble spécifique d'éditions, comme peindre sur l'image, ajouter des objets ou migrer des styles [6, 28]. ;

2. Ne peuvent fonctionner que sur des images dans des champs spécifiques ou des images synthétisées [16, 36]

3. En plus des images d'entrée, elles nécessitent également une saisie auxiliaire, telle que l'indication des modifications requises. d'un lieu, de plusieurs images du même sujet ou d'un texte décrivant l'image originale [6, 13, 40, 44].

Cet article propose une méthode d'édition d'images sémantiques "Imagic" pour pallier aux problèmes ci-dessus. Étant donné une image d'entrée à modifier et une seule invite de texte décrivant la modification cible, cette méthode permet une édition complexe et non rigide d'images réelles haute résolution. L'image résultante s'aligne bien avec le texte cible, tout en préservant le contexte global, la structure et la composition de l'image d'origine.

Comme le montre la figure 1, Imagic peut faire s'embrasser deux perroquets ou faire lever le pouce à une personne. L'édition sémantique basée sur le texte qu'elle propose est la première fois que des opérations aussi complexes, y compris l'édition de plusieurs objets, peuvent être appliquées à une seule image réelle haute résolution. En plus de ces modifications complexes, Imagic permet une grande variété de modifications, notamment des changements de style, des changements de couleur et des ajouts d'objets.

Je ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte

Pour réaliser cet exploit, les chercheurs ont exploité le modèle de diffusion texte-image récemment couronné de succès. Les modèles de diffusion sont de puissants modèles génératifs capables de synthétiser des images de haute qualité. Lorsqu'il est conditionné par une invite de texte en langage naturel, il est capable de générer des images cohérentes avec le texte demandé. Dans ce travail, les chercheurs les ont utilisés pour éditer des images réelles plutôt que pour en synthétiser de nouvelles.

Comme le montre la figure 3, Imagic n'a besoin que de trois étapes pour accomplir la tâche ci-dessus : d'abord optimiser une intégration de texte pour produire une image similaire à l'image d'entrée. Le modèle de diffusion générative pré-entraîné est ensuite affiné pour mieux reconstruire l'image d'entrée, conditionnée par des intégrations optimisées. Enfin, une interpolation linéaire est effectuée entre l'intégration du texte cible et l'intégration optimisée, ce qui donne une représentation qui combine l'image d'entrée et le texte cible. Cette représentation est ensuite transmise à un processus de diffusion générative avec un modèle affiné, produisant l'image finale éditée.

Pour prouver la puissance d'Imagic, les chercheurs ont mené plusieurs expériences, appliquant la méthode à de nombreuses images dans différents domaines, et ont produit des résultats impressionnants dans toutes les expériences. Les images de haute qualité produites par Imagic sont très similaires aux images d'entrée et cohérentes avec le texte cible requis. Ces résultats démontrent la polyvalence, la polyvalence et la qualité d’Imagic. Les chercheurs ont également mené une étude sur l'ablation qui a mis en évidence l'efficacité de chaque composant de la méthode proposée. Par rapport à une gamme de méthodes récentes, Imagic présente une qualité d'édition et une fidélité à l'image originale nettement meilleures, en particulier lors de tâches d'édition non rigides très complexes.

Détails de la méthode

Étant donné une image d'entrée x et un texte cible, cet article vise à éditer l'image d'une manière qui satisfait le texte donné tout en conservant une grande quantité de détails dans l'image x. Pour atteindre cet objectif, cet article utilise la couche d'incorporation de texte du modèle de diffusion pour effectuer des opérations sémantiques d'une manière quelque peu similaire aux méthodes basées sur le GAN. Les chercheurs commencent par rechercher des représentations significatives, puis passent par un processus génératif qui produit des images similaires à l’image d’entrée. Le modèle génératif est ensuite optimisé pour mieux reconstruire l'image d'entrée, et l'étape finale consiste à traiter la représentation latente pour obtenir le résultat de l'édition.

Comme le montre la figure 3 ci-dessus, notre méthode se compose de trois étapes : (1) Optimiser l'intégration de texte pour trouver l'intégration de texte qui correspond le mieux à l'image donnée à proximité de l'intégration de texte cible ; (2) Affiner la diffusion ; modèle pour mieux correspondre à l'image donnée ; (3) interpoler linéairement entre l'intégration optimisée et l'intégration du texte cible pour trouver un point qui atteint à la fois la fidélité de l'image et l'alignement du texte cible.

Des détails plus spécifiques sont les suivants :

Optimisation de l'intégration de texte

Tout d'abord, le texte cible est saisi dans l'encodeur de texte, qui génère l'intégration de texte correspondanteJe ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte, où T est la cible donnée. Le nombre de jetons dans le texte, d est la dimension d'intégration du jeton. Ensuite, les chercheurs gèlent les paramètres du modèle de diffusion f_θ généré et utilisent l'objectif de diffusion de débruitage pour optimiser le texte cible intégrant e_tgt

Je ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte

Où x est l'image d'entrée, Je ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte est une version de bruit de x et θ est le poids du modèle de diffusion pré-entraîné. Cela permet au texte intégré de correspondre le plus fidèlement possible à l'image d'entrée. Ce processus s'exécute en relativement peu d'étapes, en restant proche de l'intégration du texte cible d'origine, ce qui donne lieu à une intégration optimisée d'e_opt.

Réglage fin du modèle

Il convient de noter ici que l'e_opt d'intégration optimisé obtenu ici ne sera pas nécessairement complètement similaire à l'image d'entrée x lors du passage par le processus de diffusion de génération, car ils ne s'exécutent que un petit nombre d'étapes d'optimisation (voir le panneau supérieur gauche de la figure 5). Par conséquent, dans la deuxième étape, les auteurs comblent cet écart en optimisant les paramètres du modèle θ en utilisant la même fonction de perte fournie dans l'équation (2) tout en gelant l'intégration d'optimisation.

Je ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte

Interpolation d'incorporation de texte

La troisième étape d'Imagic est une simple interpolation linéaire entre e_tgt et e_opt. Pour un hyperparamètre Je ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte donné, nous obtenons Je ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte. Ensuite, les auteurs utilisent un modèle affiné pour appliquer le processus de diffusion générative sous-jacent, conditionnel à Je ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte. Cela produit une image éditée en basse résolution, qui est ensuite super-résolue à l'aide d'un modèle auxiliaire affiné pour super-réoudre le texte cible. Ce processus de génération produit l'image finale éditée en haute résolution Je ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte.

Résultats expérimentaux

Pour tester l'effet, les chercheurs ont appliqué cette méthode à un grand nombre d'images réelles provenant de différents domaines, en utilisant de simples invites textuelles pour décrire différentes catégories d'édition, telles que : le style, l'apparence, la couleur, la pose et composition . Ils ont collecté des images haute résolution et gratuites d'Unsplash et Pixabay, les ont optimisées pour générer chaque modification avec 5 graines aléatoires et ont sélectionné les meilleurs résultats. Imagic démontre des résultats impressionnants avec sa capacité à appliquer une variété de catégories d'édition sur n'importe quelle image et texte d'entrée généraux, comme le montrent les figures 1 et 7.

Je ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte

La figure 2 est une expérience avec différentes invites de texte sur la même image, montrant la polyvalence d'Imagic.

Je ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte

Étant donné que le modèle de diffusion générative sous-jacent exploité par les chercheurs est basé sur la probabilité, cette méthode peut générer des résultats différents pour une seule paire image-texte. La figure 4 montre plusieurs options d'édition utilisant différentes graines aléatoires (avec de légers ajustements de l'êta pour chaque graine). Ce caractère aléatoire permet aux utilisateurs de choisir entre ces différentes options, car les invites textuelles en langage naturel sont généralement ambiguës et imprécises. L'étude a comparé Imagic aux principales méthodes à usage général qui fonctionnent sur une seule entrée d'images du monde réel et les modifient en fonction d'une invite de texte. La figure 6 montre les résultats d'édition de différentes méthodes telles que Text2LIVE[7] et SDEdit[32].

On peut voir que notre méthode maintient une haute fidélité à l'image d'entrée tout en effectuant de manière appropriée les modifications requises. Lorsqu'on nous confie des tâches d'édition complexes et non rigides, telles que "faire asseoir le chien", notre méthode surpasse considérablement les techniques précédentes. Imagic est la première démo à appliquer cette édition sophistiquée basée sur du texte sur une seule image du monde réel.

Je ne peux pas larrêter ! Le modèle de diffusion peut être utilisé pour photoshoper des photos en utilisant uniquement du texte

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment ajouter une nouvelle colonne dans SQL Comment ajouter une nouvelle colonne dans SQL Apr 09, 2025 pm 02:09 PM

Ajoutez de nouvelles colonnes à une table existante dans SQL en utilisant l'instruction ALTER TABLE. Les étapes spécifiques comprennent: la détermination des informations du nom de la table et de la colonne, rédaction des instructions de la table ALTER et exécution des instructions. Par exemple, ajoutez une colonne de messagerie à la table des clients (VARCHAR (50)): Alter Table Clients Ajouter un e-mail VARCHAR (50);

Quelle est la syntaxe pour ajouter des colonnes dans SQL Quelle est la syntaxe pour ajouter des colonnes dans SQL Apr 09, 2025 pm 02:51 PM

La syntaxe pour ajouter des colonnes dans SQL est alter table table_name Ajouter Column_name data_type [pas null] [default default_value]; Lorsque Table_Name est le nom de la table, Column_name est le nouveau nom de colonne, DATA_TYPE est le type de données, et non Null Spécifie si les valeurs NULL sont autorisées, et default default_value spécifie la valeur par défaut.

Tableau Clear SQL: Conseils d'optimisation des performances Tableau Clear SQL: Conseils d'optimisation des performances Apr 09, 2025 pm 02:54 PM

Conseils pour améliorer les performances de compensation de la table SQL: utilisez une table tronquée au lieu de supprimer, libre d'espace et réinitialiser la colonne d'identité. Désactivez les contraintes de clés étrangères pour éviter la suppression en cascade. Utilisez les opérations d'encapsulation des transactions pour assurer la cohérence des données. Supprimer les mégadonnées et limiter le nombre de lignes via Limit. Reconstruisez l'indice après la compensation pour améliorer l'efficacité de la requête.

Comment définir des valeurs par défaut lors de l'ajout de colonnes dans SQL Comment définir des valeurs par défaut lors de l'ajout de colonnes dans SQL Apr 09, 2025 pm 02:45 PM

Définissez la valeur par défaut des colonnes nouvellement ajoutées, utilisez l'instruction ALTER TABLE: Spécifiez des colonnes Ajouter et définissez la valeur par défaut: alter table table_name Ajouter Column_name data_type default_value; Utilisez la clause CONSTRAINT pour spécifier la valeur par défaut: ALTER TABLE TABLE_NAME ADD COLUMN COLUMN_NAME DATA_TYPE CONSTRAINT DEFAULT_CONSTRAINT DEFAULT_VALUE;

Utilisez la déclaration de suppression pour effacer les tables SQL Utilisez la déclaration de suppression pour effacer les tables SQL Apr 09, 2025 pm 03:00 PM

Oui, l'instruction Delete peut être utilisée pour effacer une table SQL, les étapes sont les suivantes: Utilisez l'instruction Delete: Delete de Table_Name; Remplacez Table_Name par le nom de la table à effacer.

Comment gérer la fragmentation de la mémoire redis? Comment gérer la fragmentation de la mémoire redis? Apr 10, 2025 pm 02:24 PM

La fragmentation de la mémoire redis fait référence à l'existence de petites zones libres dans la mémoire allouée qui ne peut pas être réaffectée. Les stratégies d'adaptation comprennent: Redémarrer Redis: effacer complètement la mémoire, mais le service d'interruption. Optimiser les structures de données: utilisez une structure plus adaptée à Redis pour réduire le nombre d'allocations et de versions de mémoire. Ajustez les paramètres de configuration: utilisez la stratégie pour éliminer les paires de valeurs clés les moins récemment utilisées. Utilisez le mécanisme de persistance: sauvegardez régulièrement les données et redémarrez Redis pour nettoyer les fragments. Surveillez l'utilisation de la mémoire: découvrez les problèmes en temps opportun et prenez des mesures.

phpmyadmin crée un tableau de données phpmyadmin crée un tableau de données Apr 10, 2025 pm 11:00 PM

Pour créer un tableau de données à l'aide de PhpMyAdmin, les étapes suivantes sont essentielles: connectez-vous à la base de données et cliquez sur le nouvel onglet. Nommez le tableau et sélectionnez le moteur de stockage (InnODB recommandé). Ajouter les détails de la colonne en cliquant sur le bouton Ajouter une colonne, y compris le nom de la colonne, le type de données, s'il faut autoriser les valeurs nuls et d'autres propriétés. Sélectionnez une ou plusieurs colonnes comme clés principales. Cliquez sur le bouton Enregistrer pour créer des tables et des colonnes.

Comment créer une base de données Oracle Comment créer une base de données Oracle Comment créer une base de données Oracle Comment créer une base de données Oracle Apr 11, 2025 pm 02:33 PM

La création d'une base de données Oracle n'est pas facile, vous devez comprendre le mécanisme sous-jacent. 1. Vous devez comprendre les concepts de la base de données et des SGBD Oracle; 2. Master les concepts de base tels que SID, CDB (base de données de conteneurs), PDB (base de données enfichable); 3. Utilisez SQL * Plus pour créer CDB, puis créer PDB, vous devez spécifier des paramètres tels que la taille, le nombre de fichiers de données et les chemins; 4. Les applications avancées doivent ajuster le jeu de caractères, la mémoire et d'autres paramètres et effectuer un réglage des performances; 5. Faites attention à l'espace disque, aux autorisations et aux paramètres des paramètres, et surveillez et optimisez en continu les performances de la base de données. Ce n'est qu'en le maîtrisant habilement une pratique continue que vous pouvez vraiment comprendre la création et la gestion des bases de données Oracle.

See all articles