


Simplifiez l'invite du diagramme de Vincent, le modèle LLM génère des images de haute qualité
Le modèle de diffusion est devenu un modèle courant de génération de texte en image, qui peut guider la génération d'images de haute qualité et riches en contenu via des invites de texte
Si les invites de saisie sont trop concises, les modèles existants échouent compréhension sémantique et raisonnement de bon sens Il existe des limites dans tous les aspects, ce qui entraînera une diminution significative de la qualité des images générées
L'équipe de Lin Liang du laboratoire HCP de l'université Sun Yat-sen a proposé une amende simple et efficace -méthode de réglage appelée SUR-adapter, visant à améliorer la précision du modèle dans la compréhension narrative des signaux sexuels. Cette méthode est un adaptateur de compréhension et d'inférence sémantique, adapté aux modèles de diffusion pré-entraînés et présente les caractéristiques d'efficacité des paramètres
Veuillez cliquer sur le lien suivant pour consulter l'article : https://arxiv.org/ abs/2305.05189
Adresse open source : https://github.com/Qrange-group/SUR-adapter
Pour atteindre cet objectif, les chercheurs ont d'abord collecté et annoté un ensemble de données appelé SURD. Cet ensemble de données contient plus de 57 000 échantillons multimodaux, chaque échantillon contient une invite narrative simple, une invite complexe basée sur des mots clés et une image de haute qualité
Les chercheurs ont combiné les invites narratives La représentation sémantique est alignée sur des indices complexes , et la connaissance du grand modèle de langage (LLM) est transférée à l'adaptateur SUR via la distillation des connaissances, de sorte que de puissantes capacités de compréhension sémantique et de raisonnement puissent être obtenues pour créer une représentation sémantique de texte de haute qualité pour la génération de texte en image. Ensuite, ils ont aligné la représentation sémantique des invites narratives avec les invites complexes et ont transféré les connaissances du grand modèle de langage (LLM) à l'adaptateur SUR via la distillation des connaissances afin de pouvoir obtenir de solides capacités de compréhension sémantique et de raisonnement pour construire des solutions de haute qualité. représentations sémantiques textuelles. Pour la génération de texte en image
Nous avons mené des expériences en intégrant plusieurs LLM et des modèles de diffusion pré-entraînés et avons constaté que cette méthode peut efficacement permettre au modèle de diffusion de comprendre et de raisonner sur un langage naturel concis. descriptions sans dégrader la qualité de l'image
Cette approche peut rendre les modèles de diffusion texte-image plus faciles à utiliser, offrir une meilleure expérience utilisateur, promouvoir davantage le développement de modèles génératifs texte-image conviviaux et compenser les simples invites narratives et invites basées sur des mots clés L'écart sémantique entre
Introduction au contexte
À l'heure actuelle, le modèle de pré-formation texte-image représenté par la diffusion stable est devenu l'un des modèles de base les plus importants du domaine du contenu généré par l'intelligence artificielle, en édition d'images, vidéo Il joue un rôle important dans des tâches telles que la génération et la génération d'objets 3D
Actuellement, les capacités sémantiques de ces modèles de diffusion pré-entraînés dépendent principalement des encodeurs de texte (tels que CLIP), et leurs capacités de compréhension sémantique affectent directement l'effet de génération du modèle de diffusion
Cet article teste d'abord la précision de la correspondance image-texte de la diffusion stable en construisant des catégories de questions courantes dans les tâches de réponse visuelle aux questions (VQA), telles que "compter", "couleur" et "action". Nous allons compter et tester manuellement
Voici des exemples de construction de diverses invites, voir le tableau ci-dessous pour plus de détails
Selon les résultats indiqués dans le tableau ci-dessous, l'article révèle le pré-graphique actuel de Vincent -modèle de diffusion entraîné Il existe de sérieux problèmes de compréhension sémantique. La précision de la correspondance image-texte pour un grand nombre de questions est inférieure à 50 %, et même dans certaines questions, la précision n'est que de 0 %
Afin d'obtenir des images qui répondent aux conditions de génération de texte, nous besoin de trouver des moyens d'améliorer la diffusion pré-formation Capacités sémantiques de cet encodeur d'article dans le modèle
Aperçu de la méthode
Contenu réécrit : 1. Prétraitement des données
Tout d'abord, nous pouvons apprendre à partir du site Web en ligne de modèle de diffusion couramment utilisé lexica.art Obtenez un grand nombre de paires image-texte sur , civitai.com et stablediffusionweb. Ensuite, nous devons nettoyer et filtrer ces données pour obtenir plus de 57 000 données triplet de haute qualité (y compris des invites complexes, des invites simples et des images) et les transformer en un ensemble de données SURD
Comme le montre la figure ci-dessous, les invites complexes font référence aux conditions d'invite de texte requises par le modèle de diffusion lors de la génération d'images. Ces invites ont généralement des formats et des descriptions complexes. Une invite simple est une description textuelle d'une image générée via BLIP. Elle utilise un format de langage cohérent avec la description humaine. De manière générale, une invite simple cohérente avec la description normale du langage humain rend difficile la génération d'une invite par le modèle de diffusion. une image sémantiquement cohérente et des astuces complexes (que les utilisateurs appellent en plaisantant le « mantra » du modèle de diffusion) peuvent obtenir des résultats satisfaisants
Le contenu qui doit être réécrit est : 2. Distillation sémantique de grands modèles de langage
Cet article présente une méthode qui utilise une structure Adaptateur de Transformateur pour distiller les caractéristiques sémantiques d'un grand modèle de langage dans une couche cachée spécifique, et obtient les caractéristiques sémantiques finales en combinant linéairement les informations du grand modèle de langage guidées par l'adaptateur avec les caractéristiques sémantiques sorties par l'encodeur de texte original
Le grand modèle de langage utilise des modèles LLaMA de différentes tailles, et les paramètres de la partie UNet du modèle de diffusion sont figés pendant tout le processus de formation
Le contenu qui doit être réécrit est : 3 . Restauration de la qualité de l'image
Afin de conserver le sens original inchangé, le contenu doit être réécrit en chinois : Étant donné que la structure de cet article introduit des modules d'apprentissage dans le processus d'inférence de grand modèle de pré-entraînement, elle détruit dans une certaine mesure la qualité de génération d'images d'origine du modèle de pré-entraînement. Par conséquent, il est nécessaire de restaurer la qualité de génération d'images. au niveau de qualité de génération du modèle de pré-entraînement d'origine
Cet article utilise des triples dans l'ensemble de données SURD et présente la fonction de perte de qualité correspondante pendant le processus de formation pour restaurer la qualité de la génération d'images. Plus précisément, cet article espère que les caractéristiques sémantiques obtenues grâce au nouveau module pourront être aussi alignées que possible avec les caractéristiques sémantiques des signaux complexes
La figure suivante montre le cadre de réglage fin de l'adaptateur SUR pour le modèle de diffusion pré-entraîné. . Le côté droit est la structure réseau de l'adaptateur
Résultats expérimentaux
Pour les performances de l'adaptateur SUR, cet article analyse les performances de l'adaptateur SUR sous deux aspects : la correspondance sémantique et la qualité de l'image.
D'une part, selon le tableau suivant, le tableau montre que SUR-adaptateur peut résoudre efficacement le problème d'inadéquation sémantique courant dans les modèles de diffusion de graphes vincentiens et convient à différents contextes expérimentaux. Sous différentes catégories de critères sémantiques, la précision a également été améliorée dans une certaine mesure
D'autre part, cet article utilise des indicateurs courants d'évaluation de la qualité d'image tels que BRISQUE pour comparer le modèle de diffusion pré-entraînement original et la diffusion après utilisation de SUR -adaptateur La qualité des images générées par le modèle a été testée statistiquement, et nous pouvons constater qu'il n'y a pas de différence significative entre les deux.
Nous avons également effectué un test de questionnaire sur les préférences humaines
Grâce à l'analyse ci-dessus, nous pouvons conclure que la méthode proposée est capable d'atténuer les problèmes inhérents au texte en image pré-entraîné tout en maintenant la qualité de la génération d'images. . Le problème de non-concordance image-texte
peut également être démontré qualitativement à travers l'exemple suivant de génération d'images. Pour une analyse et des détails plus détaillés, veuillez vous référer à cet article et à l'entrepôt open source
. Le contenu à réécrire est :
Introduction au HCP Lab
Le professeur Lin Li a fondé le Laboratoire de fusion d'intelligence humaine-machine-physique (HCP Lab) de l'Université Sun Yat-sen en 2010. Ces dernières années, le laboratoire a obtenu de riches résultats académiques dans les domaines de la compréhension de contenus multimodaux, du raisonnement causal et cognitif et de l'intelligence incarnée. Le laboratoire a remporté de nombreux prix scientifiques et technologiques nationaux et étrangers ainsi que les prix du meilleur article, et s'engage à développer des technologies et des plateformes d'intelligence artificielle au niveau des produits
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Dans Debian Systems, la fonction ReadDir est utilisée pour lire le contenu du répertoire, mais l'ordre dans lequel il revient n'est pas prédéfini. Pour trier les fichiers dans un répertoire, vous devez d'abord lire tous les fichiers, puis les trier à l'aide de la fonction QSORT. Le code suivant montre comment trier les fichiers de répertoire à l'aide de ReadDir et QSort dans Debian System: # include # include # include # include # include // Fonction de comparaison personnalisée, utilisée pour qsortintCompare (constvoid * a, constvoid * b) {returnstrcmp (* (

Cet article décrit comment ajuster le niveau de journalisation du serveur Apacheweb dans le système Debian. En modifiant le fichier de configuration, vous pouvez contrôler le niveau verbeux des informations de journal enregistrées par Apache. Méthode 1: Modifiez le fichier de configuration principal pour localiser le fichier de configuration: le fichier de configuration d'Apache2.x est généralement situé dans le répertoire / etc / apache2 /. Le nom de fichier peut être apache2.conf ou httpd.conf, selon votre méthode d'installation. Modifier le fichier de configuration: Ouvrez le fichier de configuration avec les autorisations racine à l'aide d'un éditeur de texte (comme Nano): Sutonano / etc / apache2 / apache2.conf

Dans Debian Systems, les appels du système ReadDir sont utilisés pour lire le contenu des répertoires. Si ses performances ne sont pas bonnes, essayez la stratégie d'optimisation suivante: simplifiez le nombre de fichiers d'annuaire: divisez les grands répertoires en plusieurs petits répertoires autant que possible, en réduisant le nombre d'éléments traités par appel ReadDir. Activer la mise en cache de contenu du répertoire: construire un mécanisme de cache, mettre à jour le cache régulièrement ou lorsque le contenu du répertoire change et réduire les appels fréquents à Readdir. Les caches de mémoire (telles que Memcached ou Redis) ou les caches locales (telles que les fichiers ou les bases de données) peuvent être prises en compte. Adoptez une structure de données efficace: si vous implémentez vous-même la traversée du répertoire, sélectionnez des structures de données plus efficaces (telles que les tables de hachage au lieu de la recherche linéaire) pour stocker et accéder aux informations du répertoire

La configuration du pare-feu d'un serveur de courrier Debian est une étape importante pour assurer la sécurité du serveur. Voici plusieurs méthodes de configuration de pare-feu couramment utilisées, y compris l'utilisation d'iptables et de pare-feu. Utilisez les iptables pour configurer le pare-feu pour installer iptables (sinon déjà installé): Sudoapt-getUpDaSuDoapt-getinstalliptableView Règles actuelles iptables: Sudoiptable-L Configuration

Les étapes pour installer un certificat SSL sur le serveur de messagerie Debian sont les suivantes: 1. Installez d'abord la boîte à outils OpenSSL, assurez-vous que la boîte à outils OpenSSL est déjà installée sur votre système. Si ce n'est pas installé, vous pouvez utiliser la commande suivante pour installer: Sudoapt-getUpDaSuDoapt-getInstallOpenSSL2. Générer la clé privée et la demande de certificat Suivant, utilisez OpenSSL pour générer une clé privée RSA 2048 bits et une demande de certificat (RSE): OpenSS

La fonction ReadDir dans le système Debian est un appel système utilisé pour lire le contenu des répertoires et est souvent utilisé dans la programmation C. Cet article expliquera comment intégrer ReadDir avec d'autres outils pour améliorer sa fonctionnalité. Méthode 1: combinant d'abord le programme de langue C et le pipeline, écrivez un programme C pour appeler la fonction readdir et sortir le résultat: # include # include # include # includeIntmain (intargc, char * argv []) {dir * dir; structDirent * entrée; if (argc! = 2) {

Dans Debian Systems, OpenSSL est une bibliothèque importante pour le chiffrement, le décryptage et la gestion des certificats. Pour empêcher une attaque d'homme dans le milieu (MITM), les mesures suivantes peuvent être prises: utilisez HTTPS: assurez-vous que toutes les demandes de réseau utilisent le protocole HTTPS au lieu de HTTP. HTTPS utilise TLS (Protocole de sécurité de la couche de transport) pour chiffrer les données de communication pour garantir que les données ne sont pas volées ou falsifiées pendant la transmission. Vérifiez le certificat de serveur: vérifiez manuellement le certificat de serveur sur le client pour vous assurer qu'il est digne de confiance. Le serveur peut être vérifié manuellement via la méthode du délégué d'URLSession

Ce guide vous guidera pour apprendre à utiliser Syslog dans Debian Systems. Syslog est un service clé dans les systèmes Linux pour les messages du système de journalisation et du journal d'application. Il aide les administrateurs à surveiller et à analyser l'activité du système pour identifier et résoudre rapidement les problèmes. 1. Connaissance de base de Syslog Les fonctions principales de Syslog comprennent: la collecte et la gestion des messages journaux de manière centralisée; Prise en charge de plusieurs formats de sortie de journal et des emplacements cibles (tels que les fichiers ou les réseaux); Fournir des fonctions de visualisation et de filtrage des journaux en temps réel. 2. Installer et configurer syslog (en utilisant RSYSLOG) Le système Debian utilise RSYSLOG par défaut. Vous pouvez l'installer avec la commande suivante: SudoaptupDatesud
