Générez un ensemble de données avec GPT-3.5 ! Le nouveau SOTA pour l'édition d'images de l'Université de Pékin Tiangong et d'autres équipes peut simuler avec précision des scènes physiques du monde-IA-php.cn

Générez un ensemble de données avec GPT-3.5 ! Le nouveau SOTA pour l'édition d'images de l'Université de Pékin Tiangong et d'autres équipes peut simuler avec précision des scènes physiques du monde

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Libérer： 2024-06-02 17:18:08

original

945 Les gens l'ont consulté

Il existe de nombreuses méthodes d'édition d'images de haute qualité, mais il est difficile d'exprimer avec précision le monde physique réel.

Ensuite, essayez Edit the World.

Générez un ensemble de données avec GPT-3.5 ! Le nouveau SOTA pour lédition dimages de lUniversité de Pékin Tiangong et dautres équipes peut simuler avec précision des scènes physiques du monde Pictures

L'Université de Pékin, Tiamat AI, Tiangong AI et Mila Labs ont proposé EditWorld, qui a introduit une nouvelle tâche d'édition, l'édition d'images instruite par le monde. Il définit et catégorise les instructions en fonction de divers scénarios mondiaux.

Un ensemble de données multimodal avec des instructions mondiales est construit avec la prise en charge d'un ensemble de modèles pré-entraînés tels que GPT-3.5, Video-LLava et SDXL.

Un modèle d'édition d'images basé sur la diffusion, EditWorld, a été formé sur cet ensemble de données, et le résultat a été que les performances de sa nouvelle tâche étaient nettement meilleures que les méthodes d'édition existantes, atteignant ainsi SOTA.

Nouveau SOTA pour l'édition d'images

Les méthodes existantes permettent d'éditer des images de haute qualité de diverses manières, y compris, mais sans s'y limiter, le contrôle du texte, les opérations de glissement et l'inpainting. Parmi eux, la méthode d'édition à l'aide d'instructions a reçu une large attention en raison de sa facilité d'utilisation.

Bien que les méthodes d'édition d'images soient capables de produire des résultats de haute qualité, elles ont encore des difficultés à gérer la dynamique du monde qui transmet la véritable dynamique visuelle dans le monde physique.

Comme le montre la figure 1, ni InstructPix2pix ni MagicBrush ne peuvent générer des résultats d'édition raisonnables.

Pour résoudre ce problème, l'équipe a introduit une nouvelle tâche appelée édition d'images guidée par le monde, qui permet à l'édition d'images de refléter la « dynamique du monde » dans le monde physique réel et les médias virtuels.

Plus précisément, ils ont défini et classé diverses instructions dynamiques mondiales et créé un nouvel ensemble de données d'entraînement multimodal basé sur ces instructions, qui contient un grand nombre de triplets entrée-instruction-sortie.

Enfin, l'équipe a formé un modèle de diffusion guidée par texte à l'aide d'un ensemble de données soigneusement conçu et a proposé une stratégie de manipulation d'image sans prise de vue pour réaliser une retouche d'image instruite par le monde.

Basée sur des scénarios de tâches dans le monde réel et les médias virtuels, l'édition d'images instruite par le monde est divisée en 7 catégories, chaque catégorie est définie et introduite, et un échantillon de données est fourni.

Ensuite, l'équipe a conçu deux branches : la génération de texte en image et l'extraction de storyboard vidéo pour obtenir l'ensemble de données.

La branche d'image de génération de texte vise à enrichir la richesse de la scène de données.Dans cette branche, l'équipe utilise d'abord GPT pour générer des quadruples de texte (y compris la description de l'image d'entrée, les instructions, la description de l'image de sortie et les mots-clés), puis utilise l'entrée et sortie La description génère une image correspondant au texte et utilise la carte d'attention correspondant au mot-clé pour localiser la position d'édition et obtenir le masque d'édition en même temps, afin d'assurer la cohérence des caractéristiques clés des deux images. , l'équipe a introduit la méthode d'adaptation d'invite d'image IP-Adapter. Enfin, l'équipe a utilisé IP-Adapter et ControlNet, combinés avec la carte astucieuse de l'image de sortie et la fonction d'invite d'image de l'image d'entrée, et a utilisé Image Inpainting pour ajuster l'image. image de sortie pour obtenir des données d’édition plus efficaces.

Après avoir utilisé la branche d'image de génération de texte pour obtenir des données riches en scènes, afin d'ajouter des données réelles à l'ensemble de données, l'équipe a extrait des images clés de haute qualité de la vidéo en tant que données d'édition. Plus précisément, l'équipe a extrait deux images présentant une forte corrélation et de grandes différences structurelles du storyboard vidéo comme images de début et de fin, et a découpé un nouveau storyboard, en utilisant un grand modèle multimodal pour modifier le storyboard. Après avoir décrit, l'équipe a finalement. utilisé les images de début et de fin comme image d'entrée et image de sortie, et utilisé la description obtenue comme instruction, obtenant ainsi les données d'édition requises.

Pour aller plus loin, l'équipe utilise une revérification manuelle des données générées pour améliorer encore la qualité des données.

L'équipe a utilisé l'ensemble de données pour affiner le modèle InstructPix2Pix. Dans le même temps, afin de protéger la zone de non-édition et de réaliser une édition plus précise, l'équipe a proposé une stratégie de post-édition.