


La puissante combinaison de modèles de diffusion + super-résolution, la technologie derrière le générateur d'images de Google Imagen
Ces dernières années, l'apprentissage multimodal a retenu l'attention, notamment dans les deux directions de la synthèse texte-image et de l'apprentissage contrastif image-texte. Certains modèles d'IA ont attiré l'attention du grand public en raison de leur application dans la génération et l'édition d'images créatives, tels que les modèles d'images texte DALL・E et DALL-E 2 lancés par OpenAI, ainsi que GauGAN et GauGAN2 de NVIDIA.
Pour ne pas être en reste, Google a publié fin mai son propre modèle de conversion texte-image, Imagen, qui semble repousser encore les limites de la génération d'images conditionnelles aux légendes.
À partir d'une simple description d'une scène, Imagen génère des images de haute qualité et haute résolution, que la scène ait ou non un sens dans le monde réel. La figure suivante montre plusieurs exemples d'images générées par du texte Imagen, avec les sous-titres correspondants affichés sous l'image.
Ces images générées impressionnantes donnent envie de savoir : Comment fonctionne Imagen ?
Récemment, l'instructeur développeur Ryan O'Connor a écrit un long article "Comment Imagen fonctionne réellement" sur le blog AssemblyAI, expliquant en détail le principe de fonctionnement d'Imagen, donnant un aperçu d'Imagen, analysant et comprenant ses composants avancés et leur connexion. entre.
Aperçu du principe de fonctionnement d'Imagen
Dans cette partie, l'auteur montre l'architecture globale d'Imagen et donne une explication de haut niveau des autres principes de fonctionnement, puis analyse plus en profondeur chaque composant d'Imagen ; L'animation suivante montre le flux de travail d'Imagen.
Tout d'abord, entrez les sous-titres dans l'encodeur de texte. Cet encodeur convertit les sous-titres du texte en représentations numériques qui encapsulent les informations sémantiques dans le texte. L'encodeur de texte d'Imagen est un encodeur Transformer, qui garantit que l'encodage du texte comprend comment les mots des sous-titres sont liés les uns aux autres, en utilisant des méthodes d'auto-attention.
Si Imagen se concentre uniquement sur des mots individuels plutôt que sur les associations entre eux, bien que des images de haute qualité capables de capturer des éléments individuels des sous-titres puissent être obtenues, la description de ces images ne peut pas refléter la sémantique des sous-titres de manière appropriée. Comme le montre l’exemple ci-dessous, si l’association entre les mots n’est pas prise en compte, un effet de génération complètement différent se produira.
Bien que l'encodeur de texte génère une représentation utile pour l'entrée de sous-titres d'Imagen, une méthode doit encore être conçue pour générer des images à l'aide de cette représentation, à savoir un Générateur d'images. Pour ce faire, Imagen utilise le modèle de diffusion, un modèle génératif qui a gagné en popularité ces dernières années grâce à ses performances SOTA sur plusieurs tâches.
Le modèle de diffusion détruit les données d'entraînement en ajoutant du bruit pour réaliser l'entraînement, puis apprend à récupérer les données en inversant ce processus de bruit. Étant donné une image d'entrée, le modèle de diffusion corrompt l'image de manière itérative avec du bruit gaussien sur une série de pas de temps, laissant finalement le bruit gaussien ou la télévision statique. La figure suivante montre le processus itératif de bruit du modèle de diffusion :
Ensuite, le modèle de diffusion fonctionnera à rebours, apprenant à isoler et à éliminer le bruit à chaque pas de temps, contrecarrant ainsi le processus de destruction qui vient de se produire. Une fois la formation terminée, le modèle peut être divisé en deux. Cela vous permet de commencer avec un bruit gaussien échantillonné aléatoirement et de débruiter progressivement à l'aide d'un modèle de diffusion pour générer une image, comme indiqué ci-dessous :
En résumé, le modèle de diffusion entraîné commence par un bruit gaussien puis génère de manière itérative des images similaires aux images d'entraînement. Il est évident qu'il n'y a aucun contrôle sur la sortie réelle de l'image, il suffit d'introduire du bruit gaussien dans le modèle et il produira une image aléatoire qui semble appartenir à l'ensemble de données d'entraînement.
Cependant, l'objectif est de créer des images qui encapsulent les informations sémantiques des sous-titres entrés dans Imagen, il faut donc un moyen d'incorporer les sous-titres dans le processus de diffusion . Comment faire cela ?
Comme mentionné ci-dessus, l'encodeur de texte produit un encodage de sous-titres représentatif, qui est en fait une séquence de vecteurs. Pour injecter ces informations codées dans le modèle de diffusion, ces vecteurs sont agrégés et le modèle de diffusion est ajusté sur leur base. En ajustant ce vecteur, le modèle de diffusion apprend à ajuster son processus de débruitage pour produire des images qui correspondent bien aux sous-titres. La visualisation du processus est présentée ci-dessous :
Étant donné que le générateur d'image ou le modèle de base génère une petite image 64x64, afin de suréchantillonner ce modèle jusqu'à la version finale 1024x1024, utilise le modèle super-résolution pour redimensionner intelligemment l'image. .
Pour le modèle super-résolution, Imagen utilise à nouveau le modèle de diffusion. Le processus global est fondamentalement le même que celui du modèle de base, sauf qu'il est ajusté uniquement en fonction de l'encodage des sous-titres, mais également avec un suréchantillonnage d'images plus petites. La visualisation de l'ensemble du processus est la suivante :
La sortie de ce modèle super-résolution n'est pas réellement la sortie finale, mais une image de taille moyenne. Pour mettre à l'échelle cette image jusqu'à la résolution finale de 1 024 x 1 024, un autre modèle de super-résolution est utilisé. Les deux architectures super-résolution sont à peu près les mêmes, elles ne seront donc pas décrites à nouveau. La sortie du deuxième modèle de super-résolution est la sortie finale d'Imagen.
Pourquoi Imagen est-il meilleur que DALL-E 2 ?
Il est difficile de répondre exactement pourquoi Imagen est meilleur que DALL-E 2. Cependant, une partie importante de l’écart de performance provient des différences entre les sous-titres et les signaux. DALL-E 2 utilise des cibles contrastées pour déterminer le degré de relation entre les encodages de texte et les images (essentiellement CLIP). Les codeurs de texte et d'image ajustent leurs paramètres de telle sorte que la similarité cosinusoïdale de paires sous-titre-image similaires soit maximisée, tandis que la similarité cosinusoïdale de paires sous-titre-image dissemblables est minimisée.
Une partie importante de l'écart de performances vient du fait que l'encodeur de texte d'Imagen est beaucoup plus grand que l'encodeur de texte de DALL-E 2 et a été formé sur plus de données. Pour prouver cette hypothèse, nous pouvons examiner les performances d'Imagen lorsque l'encodeur de texte évolue. Voici une courbe de Pareto pour les performances d'Imagen :
L'effet de la mise à l'échelle des encodeurs de texte est étonnamment élevé, tandis que l'effet de la mise à l'échelle d'U-Net est étonnamment faible. Ce résultat montre que des modèles de diffusion relativement simples peuvent produire des résultats de haute qualité à condition qu’ils soient conditionnés à un codage fort.
Étant donné que l'encodeur de texte T5 est beaucoup plus grand que l'encodeur de texte CLIP, couplé au fait que les données d'entraînement en langage naturel sont nécessairement plus riches que les paires image-légende, une grande partie de l'écart de performances est probablement attribuable à cette différence.
De plus, l'auteur énumère également plusieurs points clés d'Imagen, dont les suivants :
- L'extension de l'encodeur de texte est très efficace ;
- L'extension de l'encodeur de texte est plus importante que l'extension de la taille du réseau U-Net ;
- Le seuil dynamique est crucial ;
- L'amélioration des conditions de bruit est cruciale dans les modèles à super-résolution ; il est crucial d'utiliser l'attention croisée pour le conditionnement du texte ;
- Un U-Net efficace est crucial.
- Ces informations fournissent des orientations précieuses aux chercheurs qui travaillent sur des modèles de diffusion qui ne sont pas seulement utiles dans le sous-domaine de la conversion texte-image.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.
