Auteur | Pengfei Zheng
Unité | USTC, HKBU TMLR Group
Ces dernières années, le développement rapide de l'IA générative a injecté une forte puissance dans des domaines accrocheurs tels que la génération de texte en image et génération vidéo. Le cœur de ces techniques réside dans l’application de modèles de diffusion. Le modèle de diffusion transforme d'abord progressivement l'image en bruit gaussien en définissant un processus direct qui ajoute continuellement du bruit, puis débruite progressivement le bruit gaussien par un processus inverse et le transforme en une image claire pour obtenir de vrais échantillons. Le modèle différentiel ordinaire de diffusion est utilisé pour interpoler les valeurs des images générées, ce qui présente un grand potentiel d'application dans la génération de vidéos et de certaines créations publicitaires. Cependant, nous avons remarqué que lorsque cette méthode est appliquée à des images naturelles, les effets d’image interpolés sont souvent peu satisfaisants.
En général, le modèle de diffusion échantillonne le bruit gaussien puis le débruite progressivement pour générer des images de haute qualité. La faible qualité de l'image interpolée signifie que ses variables sous-jacentes ne suivent plus la distribution gaussienne attendue. Pour améliorer la qualité de l'image interpolée, nous devons nous assurer que les variables sous-jacentes sont échantillonnées de plus près à partir d'une distribution gaussienne. La mise à l'échelle et le décalage directs des variables latentes endommageront gravement l'image générée, et afin de préserver les informations de l'image originale, nous ne pouvons pas trop modifier les variables latentes. Il devient donc difficile d’améliorer la qualité des images interpolées sans détruire autant que possible les variables sous-jacentes.
Nous modifions d'abord le niveau de bruit des variables latentes pour analyser quel type de variables latentes peuvent être restaurées en images de haute qualité par le modèle de diffusion, et combinons la méthode SDEdit pour introduire du bruit gaussien afin d'améliorer la qualité des images interpolées. L'introduction du bruit gaussien apportera des informations supplémentaires. De plus, nous analysons l'orthogonalité potentielle dans les espaces de grande dimension, ce qui constitue la base de notre approche. Nous combinons la méthode d'interpolation linéaire sphérique et la méthode d'introduction directe du bruit pour proposer une nouvelle méthode d'interpolation : contraindre les valeurs extrêmes potentielles, la combiner avec un minuscule bruit gaussien pour la rapprocher de la distribution attendue, et introduire l'image originale pour atténuer les informations. problème de perte. Grâce à cette méthode d'interpolation, nous pouvons améliorer considérablement les résultats d'interpolation d'images naturelles tout en conservant les informations d'origine de l'image.
Ensuite, je partagerai brièvement avec vous les résultats de nos recherches.
Titre de l'article : NoiseDiffusion : Correction du bruit pour l'interpolation d'images avec des modèles de diffusion au-delà de l'interpolation linéaire sphérique
Lien de l'article : https://www.php.cn/link/68310dc294a1c38c7ba636380151daca
Lien du code : https://www.php.cn/link/fc9e5c39356354a60d33ca59499913ca
Figure 1 : Application de la méthode d'interpolation linéaire sphérique sur les images de visage
Modèle de diffusion L'interpolation d'image la plus couramment utilisée la méthode est sphérique Linéaire méthode d'interpolation [1,2] :
Nous appliquons cette méthode aux images naturelles. On peut observer sur la figure 2 que lors de l'application de la méthode d'interpolation linéaire sphérique sur des images naturelles, l'effet d'interpolation diminue considérablement.
Figure 2 : Comparaison des effets d'interpolation entre des images naturelles et des images générées
Figure 3 : L'effet du débruitage gaussien avec différents niveaux de bruit
Nous étudions d'abord l'impact des niveaux de bruit sur images générées. On observe que ce n'est que lorsque le niveau de bruit gaussien correspond au niveau de débruitage (image du milieu) qu'une image de meilleure qualité est obtenue. Si le niveau de bruit est inférieur au niveau de débruitage (image de droite) ou supérieur au niveau de débruitage (image de gauche), la qualité de l'image générée sera réduite. Nous utilisons le théorème 1 pour expliquer ce phénomène :
Le Théorème 1 explique les caractéristiques de distribution du bruit gaussien standard dans un espace de grande dimension : ils sont principalement concentrés sur une hypersphère. À l’intérieur de cette hypersphère, bien que la densité de probabilité de points soit relativement élevée, sa contribution globale n’est pas significative en raison du faible volume qu’elle occupe, tandis qu’à l’extérieur de l’hypersphère, bien que le volume de points soit plus important, en raison du faible volume qu’elle occupe ; probabilité La densité décroît rapidement avec la distance, de sorte que la contribution des points extérieurs est également négligeable. Par conséquent, lors de la formation d'un modèle de diffusion, les variables latentes que nous observons principalement sont concentrées sur l'hypersphère, et les variables latentes à l'intérieur et à l'extérieur de l'hypersphère sont difficiles à débruiter efficacement pour ces raisons.
Figure 4 : Raisons pour lesquelles l'interpolation d'images naturelles échoue
Les images naturelles ont souvent des caractéristiques complexes que les modèles de diffusion n'ont pas vues pendant l'entraînement, ce qui fait que les modèles de diffusion rencontrent des problèmes lorsqu'ils tentent de convertir des images naturelles en difficulté de bruit gaussien standard. Plus précisément, les variables latentes de ces images peuvent contenir du bruit gaussien supérieur ou inférieur à la plage des capacités de débruitage du modèle. Cependant, la capacité du modèle de diffusion se limite principalement à restaurer le bruit gaussien sur l’hypersphère décrite dans le théorème 1. Pour les bruits en dehors de cette plage, le modèle ne peut souvent pas les gérer efficacement. Par conséquent, lors de l’interpolation d’images, des images interpolées de qualité inférieure sont souvent produites.
Figure 5 : Introduction directe de l'interpolation du bruit
Afin d'améliorer la qualité de l'image et de rapprocher les variables latentes de l'hypersphère, nous avons adopté une méthode combinée avec SDEdit[3]. Plus précisément, nous ajoutons directement du bruit gaussien standard à l'image, puis effectuons une interpolation et enfin effectuons un débruitage. Il ressort clairement de la figure 5 que cette méthode améliore considérablement la qualité des images interpolées. Cependant, il convient de noter que cette approche introduit également des informations supplémentaires, comme le montre la figure.
Figure 6 : Conception globale de NoiseDiffusion
Afin d'améliorer la qualité de l'image et de réduire autant que possible la perte d'informations, nous combinons de manière innovante la méthode d'interpolation linéaire sphérique avec la méthode d'interpolation qui introduit directement du bruit, et proposer une nouvelle méthode NoiseDiffusion. Comme le montre la figure 6, la conception globale de NoiseDiffusion prend non seulement en compte la rétention d'informations pendant le processus d'interpolation, mais améliore également la qualité de l'image en introduisant du bruit, obtenant ainsi un équilibre efficace entre les deux. Ensuite, nous développerons les idées de conception de NoiseDiffusion.
Figure 7 : Contraindre les valeurs extrêmes des variables latentes
Selon les statistiques, les composantes du bruit au-delà d'une certaine plage peuvent être considérées comme des valeurs aberrantes. En combinaison avec la figure 3, nous avons constaté qu'un bruit gaussien supérieur au niveau de débruitage produira un bruit évident, très similaire aux taches de couleur anormales sur les résultats d'interpolation d'images naturelles. Nous avons donc des raisons de croire qu'il est causé par le bruit. valeurs extrêmes des variables latentes. La production de ces taches de couleur anormales. Sur la base de ces analyses, nous imposons des contraintes sur les valeurs extrêmes des variables latentes pour contrôler l'impact de ces bruits anormaux. Comme le montre la figure 7, en limitant les valeurs extrêmes des variables latentes, nous avons grandement amélioré la qualité de l'image.
Figure 8 : Introduction des informations d'image originales
Lorsque nous imposons des contraintes sur les variables latentes, nous pouvons accidentellement affecter certains composants normaux, entraînant une perte d'informations. Afin de compenser cette perte potentielle d'informations, nous introduisons en complément les informations de l'image originale. Comme le montre la figure 8, après avoir introduit les informations d'image originales, la qualité de l'image interpolée a été considérablement améliorée. Cela montre que les informations de l’image originale jouent un rôle important dans la compensation de la perte d’informations. En combinant les contraintes des variables latentes et le supplément des informations d'image originales, nous pouvons réduire la perte d'informations tout en garantissant la qualité de l'image et obtenir un effet d'interpolation plus précis et plus naturel.
L'interpolation linéaire sphérique est une méthode d'interpolation qui repose sur le calcul de l'angle entre deux variables latentes. Cependant, dans les applications pratiques, nous observons que ces variables latentes présentent souvent un état presque orthogonal. Afin d'expliquer ce phénomène, nous introduisons le Théorème 2 comme support théorique.
Figure 9 : Introduction de bruit gaussien de différentes tailles
Figure 10 : Combinée avec la conception 1 pour réduire la quantité de bruit gaussien introduit
Comme le montre la figure 9, à mesure que nous augmentons progressivement la quantité de bruit gaussien introduit , l'image d'interpolation La qualité a été considérablement améliorée. Cependant, cette amélioration n’est pas sans coût, car à mesure que la quantité de bruit augmente, l’introduction d’informations supplémentaires augmente également. Dans le processus d'interpolation proprement dit, afin de minimiser l'introduction d'informations supplémentaires tout en répondant aux exigences de qualité, nous avons combiné les stratégies mentionnées précédemment pour réduire efficacement la quantité de bruit gaussien à introduire (Figure 10), conservant ainsi mieux les informations sur le image originale.
Figure 11 : Comparaison avec la méthode d'interpolation linéaire sphérique
Nous avons comparé les résultats de la méthode proposée avec la méthode d'interpolation linéaire sphérique (comme le montre la figure 11). À en juger par les résultats de l'interpolation, notre méthode améliore considérablement la qualité des images interpolées sans perdre presque aucune information. Cela démontre pleinement les performances supérieures de notre méthode en matière de maintien de l’intégrité des informations et d’amélioration de la qualité des images.
Nous avons également mené des expériences sur la diffusion stable [4]. En raison de l'espace latent très non structuré de la diffusion stable, il est difficile d'obtenir une interpolation douce (Figure 12). Par conséquent, nous considérons l'interpolation () à un pas de temps plus petit, ce qui peut conserver plus de caractéristiques de l'image originale et rendre le résultat de l'interpolation plus fluide, mais cela entraîne une réduction de la qualité de l'image (Figure 13). Pour résoudre ce problème, nous avons appliqué notre méthode NoiseDiffusion pour corriger les variables latentes (Figure 14). Il ressort des résultats expérimentaux que notre méthode améliore considérablement la qualité des images tout en modifiant moins d'informations.
Figure 12 : Utilisation de l'interpolation linéaire sphérique lorsque
Figure 13 : Utilisation de l'interpolation linéaire sphérique lorsque
Figure 14 : Utilisation de l'interpolation NoiseDiffusion lorsque
[1 ] Yang Song, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon et Ben Poole. Modélisation générative basée sur les scores via des équations différentielles stochastiques.
[2] Jiaming Song, Chenlin Meng et Stefano Ermon. modèles implicites de diffusion. Dans ICLR, 2021.
[3] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu et Stefano Ermon.
Sdedit : synthèse et édition d'images guidées avec différentiel stochastique. équations. Dans ICLR, 2022.
[4]Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser et Bjorn Ommer. Synthèse d'images haute résolution avec diffusion de modèles latents.
[5 ] Weihao Xia, Yulun. Zhang, Yujiu Yang, Jing-Hao Xue, Bolei Zhou et Ming-Hsuan Yang Gan
inversion : Une enquête IEEE Transactions sur l'analyse de modèles et l'intelligence artificielle, 2022.
Introduction au groupe de recherche
Le. Le groupe de recherche sur l'apprentissage automatique et le raisonnement digne de confiance (groupe TMLR) de l'université baptiste de Hong Kong est composé d'un certain nombre de jeunes professeurs, de chercheurs postdoctoraux, de doctorants, de doctorants invités et d'assistants de recherche. Le groupe de recherche est affilié au département d'informatique, Faculté des sciences. Le groupe de recherche se spécialise dans l'apprentissage des représentations fiables, l'apprentissage fiable basé sur le raisonnement causal, les modèles de base fiables et d'autres algorithmes connexes, la théorie et la conception de systèmes, ainsi que les applications en sciences naturelles. Les orientations de recherche spécifiques et les résultats associés peuvent être consultés sur le site du groupe. Github (https://github.com/tmlr-group). L'équipe de recherche est financée par des fonds de recherche gouvernementaux et des fonds de recherche industrielle, tels que le Hong Kong Research Grants Council Outstanding Young Scholars Program, la National Natural Science Foundation of China et Youth Projects, ainsi que des fonds de recherche scientifique de Microsoft, NVIDIA, Baidu. , Alibaba, Tencent et d'autres sociétés. Jeunes professeurs et chercheurs seniors travaillent main dans la main, et les ressources informatiques GPU sont suffisantes. Il permet le recrutement à long terme de nombreux chercheurs postdoctoraux, doctorants, assistants de recherche et stagiaires de recherche. En outre, le groupe accueille également les candidatures de boursiers postdoctoraux invités autofinancés, d'étudiants au doctorat et d'assistants de recherche pour une durée d'au moins 3 à 6 mois, et l'accès à distance est pris en charge. Étudiants intéressés, veuillez envoyer votre curriculum vitae et votre plan de recherche préliminaire à l'adresse e-mail (bhanml@comp.hkbu.edu.hk).
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!