Table des matières
Une découverte passionnante issue de la première exploration de
Network Framework
Performance
Affichage des effets
Maison Périphériques technologiques IA Le modèle unifié AIGC est là ! L'équipe fondée par Huang Xutao, un leader de l'industrie du CV, a proposé « Tout-Puissant Diffusion »

Le modèle unifié AIGC est là ! L'équipe fondée par Huang Xutao, un leader de l'industrie du CV, a proposé « Tout-Puissant Diffusion »

Apr 11, 2023 pm 07:30 PM
ai 模型

Les progrès récents dans les modèles de diffusion posent un jalon impressionnant dans de nombreuses tâches génératives. Des travaux attrayants tels que DALL·E 2, Imagen et Stable Diffusion (SD) ont suscité un grand intérêt dans le monde universitaire et industriel.

Cependant, bien que ces modèles fonctionnent de manière étonnante, ils se concentrent essentiellement sur un certain type de tâche, comme la génération d'images à partir d'un texte donné. Pour différents types de tâches, ils doivent souvent être formés séparément ou reconstruits.

Alors peut-on construire une Diffusion « globale » basée sur les modèles précédents pour parvenir à l'unification du modèle AIGC ? Certaines personnes tentent d’explorer dans cette direction et ont fait des progrès.

Cette équipe conjointe de l'Université de l'Illinois à Urbana-Champaign et de l'Université du Texas à Austin tente d'étendre la diffusion à flux unique existante en un réseau multi-flux, appelé Versatile Diffusion (VD), qui est le premier Le cadre de diffusion multimodal et multi-flux unifié est une étape vers l'intelligence artificielle générative générale.

Le modèle unifié AIGC est là ! Léquipe fondée par Huang Xutao, un leader de lindustrie du CV, a proposé « Tout-Puissant Diffusion »

Adresse papier : https://arxiv.org/abs/2211.08332

En plus de la fonction d'image de génération de texte ordinaire, Versatile Diffusion peut également saisir des images pour générer des images similaires. . Saisissez des images pour générer du texte, saisissez du texte pour générer un texte similaire, modifiez le découplage sémantique des images, saisissez des images et du texte pour générer une vidéo, modifiez le contenu de l'image en fonction de l'espace latent, etc.

Les futures versions prendront également en charge davantage de modes tels que la voix, la musique, la vidéo et la 3D.

Selon l'article, il a été prouvé que VD et son cadre sous-jacent présentent les avantages suivants :

a) Peut gérer toutes les sous-tâches avec une qualité compétitive.

b) Prise en charge de nouvelles extensions et applications, telles que la séparation du style graphique et de la sémantique, la génération de double guidage image-texte, etc.

c) Ces expériences et applications fournissent des informations sémantiques plus riches sur le résultat généré.

Le modèle unifié AIGC est là ! Léquipe fondée par Huang Xutao, un leader de lindustrie du CV, a proposé « Tout-Puissant Diffusion »

En termes d'ensemble de données d'entraînement, VD utilise Laion2B-en avec des filtres de données personnalisés comme ensemble de données principal.

Une découverte passionnante issue de la première exploration de

VD est qu'il peut améliorer ou réduire sémantiquement le style de l'image sans autre supervision.

Un tel phénomène a inspiré l'auteur à explorer un domaine complètement nouveau, où la séparation entre style et sémantique peut se produire pour des images aux styles et au contenu arbitraires.

Les auteurs ont déclaré qu'ils sont la première équipe à explorer : a) l'interprétation sémantique et stylistique d'images naturelles sans spécification de domaine ; b) la décomposition sémantique et stylistique sur l'espace latent des modèles de diffusion.

Dans l'image ci-dessous, l'auteur génère d'abord des variantes de l'image d'entrée puis les opère avec une focalisation sémantique (à gauche) ou stylistique (à droite).

Le modèle unifié AIGC est là ! Léquipe fondée par Huang Xutao, un leader de lindustrie du CV, a proposé « Tout-Puissant Diffusion »

Étant donné que VD prend en charge à la fois l'image en texte et le texte en image, l'équipe d'auteurs a essayé pour la première fois d'éditer des images du point de vue des invites de texte en suivant les étapes : a) Convertir l'image en texte, b) Modifier le texte, c) Reconvertir le texte en image.

Dans l'expérience, l'auteur a supprimé le contenu décrit de l'image, puis a ajouté un nouveau contenu en utilisant ce paradigme image-texte-image (I2T2I). Contrairement à la peinture ou à d'autres méthodes d'édition d'images qui nécessitent l'emplacement des objets en entrée, l'I2T2I de VD ne nécessite pas de masques car il peut automatiquement positionner et remplacer les objets comme indiqué.

Cependant, l'image de sortie d'I2T2I est incohérente avec les pixels de l'image d'entrée, ce qui est dû au raffinement sémantique image-texte et à la création de contenu texte-image.

Dans l'affichage ci-dessous, l'image d'entrée est d'abord traduite en une invite, puis l'invite est modifiée par soustraction (case rouge) et addition (case verte). Enfin, l'invite modifiée est traduite en image.

Le modèle unifié AIGC est là ! Léquipe fondée par Huang Xutao, un leader de lindustrie du CV, a proposé « Tout-Puissant Diffusion »

De plus, ils sont également la première équipe à explorer la génération d'un texte similaire basé sur un texte donné.

Le modèle unifié AIGC est là ! Léquipe fondée par Huang Xutao, un leader de lindustrie du CV, a proposé « Tout-Puissant Diffusion »

Network Framework

Plus précisément, le framework VD proposé dans l'article est un réseau multi-flux avec différents types de données en entrée et en arrière-plan.

Le cadre de diffusion multi-modal multi-flux VD hérite des avantages du LDM/SD, avec un espace latent interprétable, une structure modale et un faible coût de calcul.

VD peut former conjointement plusieurs flux, chaque flux représentant une tâche intermodale. Sa conception principale est de diffuser les protocoles de regroupement, de partage et de commutation au sein du réseau, en adaptant le cadre à toutes les tâches prises en charge et au-delà.

Le modèle unifié AIGC est là ! Léquipe fondée par Huang Xutao, un leader de lindustrie du CV, a proposé « Tout-Puissant Diffusion »

diffuser est divisé en trois groupes : couche globale, couche de données et couche de contexte. La couche globale est la couche d'intégration temporelle, la couche de données est le bloc résiduel et la couche contextuelle est l'attention croisée.

Ce regroupement correspond à la fonctionnalité du calque. Lorsque vous travaillez sur plusieurs tâches, la couche globale est partagée entre toutes les tâches. La couche de données et la couche de contexte contiennent plusieurs flux de données. Chaque flux de données peut être partagé ou échangé en fonction des données actuelles et du type de contexte.

Par exemple, lors du traitement des requêtes texte-image, le diffuseur utilise la couche de données d'image et la couche de contexte de texte. Lorsqu'il s'agit de tâches de mutation d'image, la couche de données d'image et la couche de contexte d'image sont utilisées.

Un seul processus VD contient un VAE, un diffuseur et un encodeur de contexte, traitant une tâche (comme du texte en image) sous un type de données (comme une image) et un type de contexte (comme du texte).

La structure multi-flux de Versatile Diffusion est présentée dans la figure ci-dessous :

Le modèle unifié AIGC est là ! Léquipe fondée par Huang Xutao, un leader de lindustrie du CV, a proposé « Tout-Puissant Diffusion »

Basé sur Versatile Diffusion, les chercheurs ont en outre proposé un cadre multi-modal général multi-flux, qui inclut la VAE, le contexte encodeur et un diffuseur à trois couches (c'est-à-dire couche globale, données et contexte).

Diffuseur :

VD utilise UNet à focalisation croisée largement adopté comme architecture principale du réseau de diffusion, divisant les couches en couche globale, couche de données et couche de contexte. La couche de données et la couche de contexte disposent de deux flux de données pour prendre en charge les images et le texte.

Pour le flux de données d'image, suivez LDM et utilisez le bloc résiduel (ResBlock), dont la dimension spatiale diminue progressivement et le nombre de canaux augmente progressivement.

Pour le flux de données textuelles, utilisez le nouveau bloc résiduel entièrement connecté (FCResBlock) pour étendre le vecteur latent de texte de 768 dimensions en 320*4 fonctionnalités cachées, et suivez un paradigme d'augmentation de canal similaire, puis utilisez GroupNorms, SiLU et ignorez les connexions, tout comme ResBlock normal.

Le modèle unifié AIGC est là ! Léquipe fondée par Huang Xutao, un leader de lindustrie du CV, a proposé « Tout-Puissant Diffusion »

Comme le montre la figure ci-dessus, FCResBlock contient deux ensembles de couches entièrement connectées (FC), de normalisation de groupe (GN) et d'unité linéaire sigmoïde (SiLU). x est le code latent du texte d'entrée, t est l'intégration temporelle d'entrée et hi est la fonctionnalité intermédiaire.

Pour les groupes contextuels, les couches d'attention croisée sont utilisées à la fois pour les flux d'images et de contexte, où l'intégration de contenu exploite les fonctionnalités de données via des couches de projection, des produits scalaires et des sigmoïdes.

Variational Autoencoder (VAE) :

VD utilise l'auto-encodeur précédent du modèle de diffusion latente (Latent Diffusion Model, LDM) -KL comme données d'image VAE et Optimus comme texte DataVAE. Optimus se compose de l'encodeur de texte BERT et du décodeur de texte GPT2, qui peuvent convertir de manière bidirectionnelle des phrases en vecteurs latents normalement distribués à 768 dimensions.

Dans le même temps, Optimus présente également des propriétés VAE satisfaisantes avec son espace latent de texte reconfigurable et interprétable. Optimus a donc été choisi comme texte VAE car il répond bien aux prérequis d'un cadre multi-flux multi-modal.

Encodeur de contexte :

VD utilise l'encodeur de texte et d'image CLIP comme encodeur de contexte. Contrairement à LDM et SD qui utilisent uniquement des intégrations de texte brut comme entrée de contexte, VD utilise des intégrations normalisées et projetées pour minimiser la perte de contraste CLIP du texte et des images.

Les expériences montrent qu'un espace d'intégration plus étroit entre les types de contexte aide le modèle à converger rapidement et à mieux fonctionner. Des conclusions similaires peuvent également être obtenues dans DALL·E 2, qui affine le modèle texte-image avec une couche de projection supplémentaire pour minimiser la différence entre les intégrations de texte et d'image pour les variations d'image.

Performance

Les auteurs ont utilisé les premiers modèles à tâche unique comme modèles de référence et ont comparé les résultats de VD avec ces références. Parmi eux, SDv1.4 est utilisé comme modèle de base du texte à l'image, la variation SD est utilisée pour la variation d'image et BLIP est utilisé pour le texte d'image.

Parallèlement, les auteurs ont également mené une comparaison qualitative de différents modèles VD, où VDDC et VD-official ont été utilisés pour la conversion texte-image, et les trois modèles ont été utilisés pour les variantes d'image.

Les échantillons d'images SD et VD sont générés avec des graines aléatoires contrôlées pour un meilleur contrôle de qualité.

Le modèle unifié AIGC est là ! Léquipe fondée par Huang Xutao, un leader de lindustrie du CV, a proposé « Tout-Puissant Diffusion »

Performance texte-image

Bien que DALLE 2 et Imagen aient également atteint des performances de pointe sur ces tâches, les auteurs ont omis de les tester car il n'y a pas de code public ou détails de la formation. Comparez.

Les résultats montrent que la structure multi-processus et la formation multi-tâches peuvent aider VD à capturer la sémantique contextuelle, à générer des résultats avec plus de précision et à accomplir toutes les sous-tâches de manière excellente.

Le modèle unifié AIGC est là ! Léquipe fondée par Huang Xutao, un leader de lindustrie du CV, a proposé « Tout-Puissant Diffusion »

Performance de la variante d'image

De plus, l'annotation d'image générée par VD contient également des mots créatifs. En comparaison, la génération de BLIP est très courte et manque de description détaillée.

Le modèle unifié AIGC est là ! Léquipe fondée par Huang Xutao, un leader de lindustrie du CV, a proposé « Tout-Puissant Diffusion »

Performance image en texte

Affichage des effets

Le modèle unifié AIGC est là ! Léquipe fondée par Huang Xutao, un leader de lindustrie du CV, a proposé « Tout-Puissant Diffusion »

Vincent Picture

"Variantes d'images"

RésuméLe modèle unifié AIGC est là ! Léquipe fondée par Huang Xutao, un leader de lindustrie du CV, a proposé « Tout-Puissant Diffusion »

L'auteur présente Versatile Diffusion (VD), un réseau de diffusion multimodal multi-flux qui aborde le texte, les images et les variations dans un modèle unifié. Basé sur VD, l'auteur présente en outre un cadre multimodal général multi-flux, qui peut impliquer de nouvelles tâches et domaines. Grâce à des expériences, les auteurs ont découvert que VD peut produire une sortie de haute qualité sur toutes les tâches prises en charge, parmi lesquelles les résultats de la conversion texte-image et image-variante de VD peuvent mieux capturer la sémantique dans le contexte, et l'image-variante de VD. to-text Les résultats sont créatifs et illustratifs. Compte tenu des propriétés multi-flux et multimodales de VD, les auteurs présentent de nouvelles extensions et applications qui pourraient bénéficier davantage aux utilisateurs en aval travaillant sur cette technologie.

Le modèle unifié AIGC est là ! Léquipe fondée par Huang Xutao, un leader de lindustrie du CV, a proposé « Tout-Puissant Diffusion »Présentation de l'équipe

L'équipe IFP de l'Université de l'Illinois à Urbana-Champaign a été fondée par le professeur Huang Xutao dans les années 1980, à l'origine comme groupe de formation et de traitement d'images du Beckman Institute for Advanced Science and Technology.

Le modèle unifié AIGC est là ! Léquipe fondée par Huang Xutao, un leader de lindustrie du CV, a proposé « Tout-Puissant Diffusion »

Au fil des années, l'IFP s'est engagé dans la recherche et l'innovation au-delà des images, notamment dans le codage d'images et de vidéos, l'interaction homme-machine multimodale, l'annotation et la recherche multimédia, la vision par ordinateur et la reconnaissance de formes, l'apprentissage automatique, big data, apprentissage profond et calcul haute performance.

L'orientation de recherche actuelle de l'IFP est de résoudre le problème du traitement multimodal de l'information en combinant de manière collaborative big data, deep learning et calcul haute performance.

Par ailleurs, l'IFP a remporté plusieurs meilleurs articles lors de grandes conférences dans le domaine de l'intelligence artificielle et a remporté de nombreux concours internationaux, dont le premier NIST TrecVID, le premier ImageNet Challenge et le premier Artificial Intelligence City Challenge.
  • Fait intéressant, depuis que le professeur Huang a commencé à enseigner au MIT dans les années 1960, les « membres » du groupe IFP comprennent même des amis, des étudiants, des étudiants d'étudiants, des étudiants d'étudiants et même des étudiants d'étudiants d'étudiants.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Où trouver la courte de la grue à atomide atomique
1 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Quelle est la raison pour laquelle PS continue de montrer le chargement? Quelle est la raison pour laquelle PS continue de montrer le chargement? Apr 06, 2025 pm 06:39 PM

Les problèmes de «chargement» PS sont causés par des problèmes d'accès aux ressources ou de traitement: la vitesse de lecture du disque dur est lente ou mauvaise: utilisez Crystaldiskinfo pour vérifier la santé du disque dur et remplacer le disque dur problématique. Mémoire insuffisante: améliorez la mémoire pour répondre aux besoins de PS pour les images à haute résolution et le traitement complexe de couche. Les pilotes de la carte graphique sont obsolètes ou corrompues: mettez à jour les pilotes pour optimiser la communication entre le PS et la carte graphique. Les chemins de fichier sont trop longs ou les noms de fichiers ont des caractères spéciaux: utilisez des chemins courts et évitez les caractères spéciaux. Problème du PS: réinstaller ou réparer le programme d'installation PS.

Comment résoudre le problème du chargement lorsque PS est démarré? Comment résoudre le problème du chargement lorsque PS est démarré? Apr 06, 2025 pm 06:36 PM

Un PS est coincé sur le "chargement" lors du démarrage peut être causé par diverses raisons: désactiver les plugins corrompus ou conflictuels. Supprimer ou renommer un fichier de configuration corrompu. Fermez des programmes inutiles ou améliorez la mémoire pour éviter une mémoire insuffisante. Passez à un entraînement à semi-conducteurs pour accélérer la lecture du disque dur. Réinstaller PS pour réparer les fichiers système corrompus ou les problèmes de package d'installation. Afficher les informations d'erreur pendant le processus de démarrage de l'analyse du journal d'erreur.

Le processus de production de pages H5 Le processus de production de pages H5 Apr 06, 2025 am 09:03 AM

Processus de production de page H5: conception: mise en page, style et contenu de la page du plan; Construction de la structure HTML: Utilisez des balises HTML pour créer un cadre de page; Écriture de style CSS: Utilisez CSS pour contrôler l'apparence et la disposition de la page; Implémentation d'interaction JavaScript: écrivez du code pour réaliser l'animation et l'interaction de la page; Optimisation des performances: compressez les images, code et réduisez les demandes HTTP pour améliorer la vitesse de chargement des pages.

Comment contrôler la vitesse de lecture vidéo dans HTML5? Comment réaliser un plein écran de vidéo dans HTML5? Comment contrôler la vitesse de lecture vidéo dans HTML5? Comment réaliser un plein écran de vidéo dans HTML5? Apr 06, 2025 am 10:24 AM

Dans HTML5, la vitesse de lecture de la vidéo peut être contrôlée via l'attribut PlayBackrate, qui accepte les valeurs suivantes: moins de 1: la lecture lente est égale à 1: la lecture de vitesse normale supérieure à 1: la lecture rapide équivaut à 0: pause dans HTML5, la vidéo en plein écran vidéo peut être réalisée via la méthode de candidature à SketfulLscreen (), qui peut être appliquée aux éléments vidéo ou à leurs éléments parents.

Comment résoudre le problème du chargement lorsque le PS ouvre le fichier? Comment résoudre le problème du chargement lorsque le PS ouvre le fichier? Apr 06, 2025 pm 06:33 PM

Le bégaiement "Chargement" se produit lors de l'ouverture d'un fichier sur PS. Les raisons peuvent inclure: un fichier trop grand ou corrompu, une mémoire insuffisante, une vitesse du disque dur lente, des problèmes de pilote de carte graphique, des conflits de version PS ou du plug-in. Les solutions sont: vérifier la taille et l'intégrité du fichier, augmenter la mémoire, mettre à niveau le disque dur, mettre à jour le pilote de carte graphique, désinstaller ou désactiver les plug-ins suspects et réinstaller PS. Ce problème peut être résolu efficacement en vérifiant progressivement et en faisant bon usage des paramètres de performances PS et en développant de bonnes habitudes de gestion des fichiers.

Comment utiliser les plumes PS pour créer des effets transparents? Comment utiliser les plumes PS pour créer des effets transparents? Apr 06, 2025 pm 07:03 PM

Méthode de production d'effet transparent: Utilisez l'outil de sélection et les plumes pour coopérer: sélectionnez les zones transparentes et les plumes pour adoucir les bords; Modifiez le mode de mélange de couche et l'opacité pour contrôler la transparence. Utilisez des masques et des plumes: Sélectionnez et des zones de plumes; Ajouter les masques de couche et la transparence de contrôle du gradient de niveaux de gris.

Qu'est-ce qui est plus facile à apprendre, H5 ou JS? Qu'est-ce qui est plus facile à apprendre, H5 ou JS? Apr 06, 2025 am 09:18 AM

La difficulté d'apprentissage de H5 (HTML5) et JS (JavaScript) est différente, selon les exigences. Une page Web statique simple doit uniquement apprendre H5, alors qu'elle est très interactive et nécessite un développement frontal pour maîtriser JS. Il est recommandé d'apprendre H5 d'abord, puis d'apprendre progressivement JS. H5 apprend principalement des balises et est facile à démarrer; JS est un langage de programmation avec une courbe d'apprentissage abrupte et nécessite une compréhension de la syntaxe et des concepts, tels que les fermetures et les chaînes prototypes. En termes de pièges, H5 implique principalement des écarts de compatibilité et de compréhension sémantique, tandis que JS implique la syntaxe, la programmation asynchrone et l'optimisation des performances.

L'exportation de PDF sur PS sera-t-elle déformée? L'exportation de PDF sur PS sera-t-elle déformée? Apr 06, 2025 pm 05:21 PM

Pour exporter PDF sans distorsion, vous devez suivre les étapes suivantes: Vérifiez la résolution de l'image (plus de 300 dpi pour l'impression); Définissez le format d'exportation sur CMYK (impression) ou RVB (page Web); Sélectionnez le taux de compression approprié et la résolution d'image est cohérente avec la résolution de réglage; Utiliser un logiciel professionnel pour exporter PDF; Évitez d'utiliser un flou, des plumes et d'autres effets. Pour différents scénarios, la haute résolution, le mode CMYK et la faible compression sont utilisées pour l'impression; La faible résolution, le mode RVB et la compression appropriée sont utilisées pour les pages Web; La compression sans perte est utilisée pour les archives.

See all articles