Le modèle de diffusion est à l'origine dérivé de la thermodynamique en physique, mais il est récemment devenu populaire dans le domaine de l'intelligence artificielle. Quelles autres théories physiques peuvent favoriser le développement de la recherche sur les modèles génératifs ? Récemment, des chercheurs du MIT se sont inspirés de la théorie électromagnétique de haute dimension et ont proposé un modèle génératif appelé Poisson Flow. Théoriquement, ce modèle possède des images intuitives et une théorie rigoureuse ; expérimentalement, il est souvent meilleur que le modèle de diffusion en termes de qualité de génération, de vitesse de génération et de robustesse. Cet article a été accepté par NeurIPS 2022.
inspired by Electrostatic Mechanics, les chercheurs ont proposé un nouveau modèle génératif appelé Modèle de flux de Poisson (Poisson Flow Generative Models, ou PFGM). Intuitivement, cette recherche peut considérer les points de données à N dimensions comme un groupe de charges positives sur le plan z=0, une nouvelle dimension dans l’espace à N+1 dimensions. Ils génèrent un champ électrique dans l’espace à haute dimension. En partant du plan z=0 et en se déplaçant vers l’extérieur le long des lignes de champ électrique qu’elles génèrent, l’étude a pu envoyer l’échantillon dans un hémisphère (comme le montre la figure 1). La direction de ces lignes de champ électrique correspond au gradient de la solution de l'équation de Poisson dans un espace de grande dimension. Les chercheurs ont prouvé que lorsque le rayon de l’hémisphère est suffisamment grand, les lignes de champ électrique peuvent transformer la distribution des charges (c’est-à-dire la distribution des données) sur le plan z=0 en une distribution uniforme sur l’hémisphère (Figure 2).
PFGM profite de la réversibilité des lignes de champ électrique pour générer une distribution de données sur le plan z=0 : d'abord, les chercheurs échantillonnent uniformément sur un grand hémisphère, puis laissent l'échantillon se déplacer le long des lignes de champ électrique depuis la sphère. au plan z=0, générant ainsi des données. Étant donné que le mouvement le long des lignes de champ électrique peut être décrit par une équation différentielle ordinaire (ODE), dans le cas d'un échantillonnage réel, les chercheurs n'ont qu'à résoudre une ODE déterminée par la direction des lignes de champ électrique. Grâce à un champ électrique, PFGM convertit une simple distribution sur une sphère en une distribution de données complexe. De ce point de vue, le PFGM peut être considéré comme un flux normalisant continu (Normalizing Flow).
Dans l'expérience de génération d'images, PFGM est actuellement le modèle de flux normalisé le plus performant sur l'ensemble de données standard CIFAR-10, atteignant un score FID (une mesure de la qualité de l'image) de 2,35. Les chercheurs ont également démontré d’autres utilisations du PFGM, telles que sa capacité à calculer la probabilité d’image, à effectuer l’édition d’images et à mettre à l’échelle des ensembles de données d’images haute résolution. De plus, les chercheurs ont découvert que PFGM présente trois avantages par rapport aux modèles de diffusion récemment populaires :
(1) Sur la même structure de réseau, la qualité des échantillons générés par l'ODE de PFGM est bien meilleure que l'ODE du modèle de diffusion ; (2) Alors que la qualité de génération de SDE (équation différentielle stochastique) du modèle de diffusion est presque la même, l'ODE de PFGM a atteint une accélération de 10 à 20 fois(3) La capacité d'expression de PFGM ; Les réseaux plus faibles sont structurellement plus robustes que les modèles de diffusion.
Figure 1 : Le point d'échantillonnage se déplace le long de la ligne de champ électrique. Ci-dessus : La distribution des données est en forme de cœur ; en bas : Les données sont distribuées sous la forme d'un PFGM
Figure 2 : Gauche : La trajectoire du champ de Poisson en trois dimensions ; à droite : sur l'image Forward ODE et Reverse ODE en utilisant PFGM Notez que le processus ci-dessus intègre des données à N dimensions dans un espace à N+1 dimensions (dimension z supplémentaire). Afin de faciliter la distinction, les chercheurs utilisent x et pour représenter des données à N dimensions et N+1 dimensions. Afin d'obtenir les lignes de champ électrique de grande dimension mentionnées ci-dessus, l'équation de Poisson suivante doit être résolue : où est la distribution de données que vous souhaitez générer sur le plan z=0 ; est la fonction potentielle, c'est également l'objectif que les chercheurs cherchent à résoudre. Comme seule la direction de la ligne de champ électrique doit être connue, les chercheurs ont dérivé la forme analytique du gradient de la ligne de champ électrique (le gradient de la fonction de potentiel) : La trajectoire du champ électrique (voir Figure 2) peut être calculée par l'ODE Description suivante : Dans le théorème suivant, les chercheurs prouvent que l'ODE ci-dessus définit une bijection de la distribution uniforme sur l'hémisphère de grande dimension et les données distribution sur le plan z=0. Cette conclusion est la même que l'intuition des figures 1 et 2 : la distribution des données peut être restaurée via des lignes de champ électrique. Formation de PFGM Étant donné un ensemble de données échantillonnées à partir de la distribution des données, les chercheurs utilisent le gradient de ligne de champ électrique correspondant à l'ensemble de données pour approximer la distribution des données. Dégradé de ligne de champ électrique : Ce gradient de ligne de champ électrique est la cible d'apprentissage. Cette étude utilise la fonction perturb pour sélectionner des points dans l'espace, et la fonction de perte carrée permet au réseau neuronal d'apprendre le gradient de ligne de champ électrique normalisé dans l'espace L'algorithme spécifique est le suivant : . Échantillonnage PFGM Après avoir appris la normalisation pour apprendre le gradient de ligne de champ électrique normalisé dans l'espace, la distribution des données peut être échantillonnée via l'ODE suivante : Cette ODE fait passer progressivement l'échantillon de la grande sphère le long des lignes de champ électrique jusqu'au plan z=0 en réduisant z. De plus, cette étude propose de projeter la distribution uniforme sur une grande sphère sur un certain plan z pour faciliter les simulations ODE et accélérer davantage l'échantillonnage grâce à la substitution de variables. Veuillez vous référer à la section 3.3 de l'article pour connaître les étapes spécifiques. Dans le tableau 1, cette étude utilise l'ensemble de données standard CIFAR-10 pour évaluer différents modèles. Sur cet ensemble de données, PFGM est le modèle de flux normalisé réversible le plus performant, atteignant un score FID de 2,35. PFGM fonctionne mieux que le modèle de diffusion en utilisant la même structure de réseau (DDPM++/DDPM++ deep). Les chercheurs ont également observé que même si la qualité de génération SDE (équation différentielle stochastique) du modèle de diffusion était similaire, PFGM a atteint une accélération de 10 à 20 fois, équilibrant mieux la qualité et la vitesse de génération. En outre, les chercheurs ont découvert que le PFGM est plus robuste que les modèles de diffusion sur des structures de réseau moins expressives, et reste meilleur que les modèles de diffusion dans les mêmes conditions sur des ensembles de données de plus grande dimension. Veuillez consulter la section expérimentale de l'article pour plus de détails. Dans la figure 3, l'étude visualise le processus de génération d'images PFGM. Tableau 1 : Qualité de l'échantillon (FID, Inception) et étapes d'échantillonnage (NFE) sur les données CIFAR-10 Photo trois : Processus d'échantillonnage de PFGM sur CIFAR-10, CelebA 64x64, chambre LSUN 256x256 Cette étude propose un modèle génératif PFGM basé sur l'équation de Poisson. Ce modèle prédit les gradients normalisés des lignes de champ électrique dans un espace étendu de dimensions N+1 et est échantillonné par les ODE correspondantes des lignes de champ électrique. Dans les expériences, le modèle étudié dans cette étude est actuellement le meilleur modèle de flux standardisé et permet d'obtenir de meilleurs effets de génération et une vitesse d'échantillonnage plus rapide que le modèle de diffusion sur la même structure de réseau. Le processus d'échantillonnage du PFGM est plus robuste au bruit et peut également être étendu à des ensembles de données de dimensions supérieures. Les chercheurs s’attendent à ce que le PFGM soit également performant dans d’autres domaines d’application, tels que la génération de molécules et la génération de données 3D. Présentation de la méthode
Résultats expérimentaux
Conclusion
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!