Je dois dire que prendre des photos maintenant est vraiment « si simple que c'en est ridicule ».
Une personne réelle n'a pas besoin d'apparaître devant la caméra et n'a pas à se soucier de la pose ou de la coiffure. Vous avez seulement besoin d'une image de vous-même, attendez quelques secondes, et vous pouvez obtenir 7 styles complètement différents :
Regardez attentivement, la forme/pose. Tout est fait clairement pour vous, et l'image originale sort immédiatement, il n'est donc pas nécessaire de la modifier. Avant cela, nous ne devons pas passer au moins une journée entière dans le studio photo, ce qui nous épuiserait presque, nous, le photographe et la maquilleuse. Ce qui précède est la puissance d'une IA appeléeInstantID.
En plus des photos réalistes, il peut aussi être « non humain » : Par exemple, il a une tête et un corps de chat, mais si vous regardez bien, il a vos traits du visage. Sans parler des différents styles virtuels : Comme le style 2, une personne réelle se transforme directement en statue de pierre. Bien sûr, la saisie d'une statue de pierre peut aussi la transformer directement en : D'ailleurs, vous pouvez également effectuer l'opération haute puissance defusion de deux visages Voyez ce que 20% de Yang Mi +. 80% de Taylor ressemble à :
Une image a des transformations illimitées de haute qualité, mais vous devez les comprendre. Alors, comment ça se passe ? Basé sur le modèle de diffusion et peut être intégré de manière transparente à SDL'auteur a introduit que la technologie actuelle de stylisation d'image peut déjà terminer la tâche avec une seule inférence directe
(c'est-à-dire basée sur l'intégration d'ID).
Mais cette technologie présente également des problèmes : soit elle nécessite un réglage approfondi de nombreux paramètres du modèle, soit elle manque de compatibilité avec les modèles pré-entraînés développés par la communauté, soit elle ne peut pas maintenir les traits du visage haute fidélité. Pour résoudre ces défis, ils ont développé InstantID. InstantID est construit sur la base du modèle de diffusion et son module plug-and-play peut gérer habilement diverses transformations stylisées avec une seule image faciale, tout en conservant une haute fidélité.La chose la plus remarquable est qu'il peut être intégré de manière transparente aux modèles de diffusion pré-entraînés texte-image populaires (tels que SD1.5, SDXL)
et utilisé comme plug-in.Plus précisément, InstantID se compose de trois composants clés :
(1) l'intégration d'identifiants qui capture des informations sémantiques robustes sur le visage (2) un module d'adaptation léger avec une attention croisée découplée, des images pratiques comme repères visuels ; Réseau IdentityNet, qui code les caractéristiques détaillées de l'image de référence grâce à un contrôle spatial supplémentaire, complétant ainsi la génération de l'image.Par rapport aux travaux antérieurs de l'industrie, InstantID présente plusieurs différences :
Premièrement, il n'est pas nécessaire de former UNet, donc la capacité de génération du modèle texte-image d'origine peut être conservée, et c'est compatible avec les modèles pré-entraînés existants et les modèles de la communauté ControlNet.
Deuxièmement, aucun ajustement du temps de test n'est requis, donc pour un style spécifique, il n'est pas nécessaire de collecter plusieurs images pour un réglage fin, une seule inférence est requise pour une seule image. Troisièmement, en plus d'obtenir une meilleure fidélité faciale, la possibilité de modifier le texte est également conservée. Comme le montre l'image ci-dessous, en quelques mots seulement, vous pouvez changer le sexe de l'image, changer de costume, changer de coiffure et de couleur de cheveux.Encore une fois, tous les effets ci-dessus peuvent être réalisés en quelques secondes avec une seule image de référence.
Comme le montre l'expérience ci-dessous,
quelques images de référence supplémentaires ne sont pas d'une grande utilité, et on peut faire du bon travail.Voici quelques comparaisons spécifiques.
Les objets de comparaison sont les méthodes SOTA sans réglage existantes : IP-Adapter (IPA), IP-Adapter-FaceID et PhotoMaker, qui vient d'être produit par Tencent il y a deux jours.
Vous pouvez voir que tout le monde est assez "volume" et l'effet n'est pas mauvais - mais si vous les comparez attentivement, PhotoMaker et IP-Adapter-FaceID ont tous deux une bonne fidélité, mais leurs capacités de contrôle de texte sont évidemment pires.
En revanche, les visages et les styles d'InstantID se mélangent mieux, obtenant une meilleure fidélité tout en conservant une bonne éditabilité du texte.
De plus, il existe également une comparaison avec le modèle InsightFace Swapper, lequel pensez-vous est le meilleur ?
Il y a 5 auteurs dans cet article, issus de la mystérieuse équipe InstantX (peu d'informations peuvent être trouvées en ligne).
Mais l'un d'eux est Qixun Wang du Petit Livre Rouge.
L'auteur correspondant Wang Haofan est également ingénieur à Xiaohongshu. Il est engagé dans des recherches sur la génération de contenu contrôlable et conditionnelle (AIGC) et est un ancien élève de la CMU'20.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!