Table des matières
Magic Implicit Distortion
Structure du modèle
Résultats expérimentaux
Maison Périphériques technologiques IA DeepFake n'a jamais été aussi réel ! Quelle est la force de la dernière « distorsion implicite » de Nvidia ?

DeepFake n'a jamais été aussi réel ! Quelle est la force de la dernière « distorsion implicite » de Nvidia ?

Apr 11, 2023 pm 07:31 PM
技术 deepfake

Ces dernières années, la technologie de génération dans le domaine de la vision par ordinateur est devenue de plus en plus puissante, et la technologie de « contrefaçon » correspondante est devenue de plus en plus mature Du changement de visage DeepFake à la simulation d'action, il est difficile de faire la distinction. le vrai du faux.

Récemment, NVIDIA a fait un autre grand pas en avant lors de la conférence NeurIPS 2022, en publiant un nouveau Implicit Warping framework, qui utilise un ensemble d'images sources et un mouvement vidéo piloté pour créer une animation cible. .

DeepFake na jamais été aussi réel ! Quelle est la force de la dernière « distorsion implicite » de Nvidia ?

Lien papier : https://arxiv.org/pdf/2210.01794.pdf

Du point de vue effet, l'image générée est plus réaliste, les personnages bougent dans la vidéo, Contexte Il n'y aura aucun changement.

Les images sources multiples d'entrée fournissent généralement des informations d'apparence différentes, réduisant l'espace « fantastique » du générateur, comme les deux suivantes comme entrées de modèle.

On peut constater que par rapport à d'autres modèles, la distorsion implicite ne produit pas de « distorsion spatiale » similaire à l'effet de beauté.

En raison de l'occlusion des personnes, les images sources multiples peuvent également fournir un arrière-plan plus complet.

DeepFake na jamais été aussi réel ! Quelle est la force de la dernière « distorsion implicite » de Nvidia ?

Comme vous pouvez le voir sur la vidéo ci-dessous, s'il n'y a qu'une seule image à gauche, il est difficile de deviner si c'est "BD" ou "ED" derrière l'arrière-plan, ce qui provoquera distorsion de l'arrière-plan et deux images produiront une image plus stable.

Lorsque vous comparez d'autres modèles, l'effet d'une seule image source est meilleur.

DeepFake na jamais été aussi réel ! Quelle est la force de la dernière « distorsion implicite » de Nvidia ?

Magic Implicit Distortion

L'imitation vidéo dans le monde universitaire remonte à 2005. De nombreux projets incluent la transmission d'expression en temps réel de la reproduction faciale, Face2Face, Obama synthétique, Recycle-GAN, ReenactGAN, champ de rayonnement neuronal dynamique Etc. a diversifié l’utilisation de plusieurs technologies limitées à l’époque, telles que les réseaux contradictoires génératifs (GAN), les champs de rayonnement neuronal (NeRF) et les auto-encodeurs.

Toutes les méthodes n'essaient pas de générer des vidéos à partir d'une seule image. Certaines études effectuent également des calculs complexes sur chaque image de la vidéo. C'est en fait la voie d'imitation empruntée par Deepfake.

Mais comme le modèle DeepFake acquiert moins d'informations, cette méthode doit être entraînée sur chaque clip vidéo, et les performances sont réduites par rapport aux méthodes open source de DeepFaceLab ou FaceSwap, qui sont capables d'imposer une identité à n'importe lequel. nombre de clips vidéo.

Le modèle FOMM sorti en 2019 permet aux personnages de se déplacer avec la vidéo, donnant ainsi une autre chance à la tâche d'imitation vidéo.

Par la suite, d'autres chercheurs ont essayé d'obtenir plusieurs poses et expressions à partir d'une seule image de visage ou d'une représentation du corps entier ; cependant, cette méthode ne fonctionne généralement que pour des sujets relativement sans expression et immobiles, tels que des sujets relativement « parlants ». car il n’y a pas de « changements soudains de comportement » dans les expressions faciales ou les gestes que le réseau doit interpréter.

DeepFake na jamais été aussi réel ! Quelle est la force de la dernière « distorsion implicite » de Nvidia ?

Bien que certaines de ces technologies et méthodes aient attiré l'attention du public avant que la technologie des deepfakes et les méthodes potentielles de synthèse d'images par diffusion ne deviennent populaires, leur champ d'application est limité et leur polyvalence est remise en question.

La distorsion implicite sur laquelle NVIDIA se concentre cette fois est d'obtenir des informations entre plusieurs images ou même seulement entre deux images, au lieu d'obtenir toutes les informations de posture nécessaires à partir d'une seule image. Ce paramètre est utilisé dans d'autres ni l'un ni l'autre n'est présent dans les modèles concurrents. , ou est extrêmement mal géré.

DeepFake na jamais été aussi réel ! Quelle est la force de la dernière « distorsion implicite » de Nvidia ?

Par exemple, le flux de travail de Disney est que les animateurs seniors dessinent les images principales et les images clés, et que d'autres animateurs juniors sont responsables du dessin des images intermédiaires.

Grâce à des tests sur les versions précédentes, les chercheurs de NVIDIA ont constaté que la qualité des résultats de la méthode précédente se détériorerait avec des "images clés" supplémentaires, tandis que la nouvelle méthode est cohérente avec la logique de production d'animation à mesure que le nombre d'images clés augmente. , À mesure que le nombre augmente, les performances s'améliorent également de manière linéaire.

S'il y a des changements soudains au milieu du clip, comme un événement ou une expression qui n'est pas affiché dans l'image de début ou de fin, une distorsion implicite peut ajouter une image à ce point médian, et des informations supplémentaires seront réinjecté dans le mécanisme d’attention de l’ensemble du clip.

DeepFake na jamais été aussi réel ! Quelle est la force de la dernière « distorsion implicite » de Nvidia ?

Structure du modèle

Les méthodes précédentes telles que FOMM, Monkey-Net et face-vid2vid utilisent une déformation explicite pour dessiner une série temporelle, et les informations extraites du visage source et du mouvement de contrôle doivent être adaptées et cohérentes. séries chronologiques.

Sous la conception de ce modèle, la cartographie finale des points clés est assez stricte.

En revanche, la déformation implicite utilise une couche d'attention intermodale avec moins d'amorçage prédéfini inclus dans son flux de travail et peut s'adapter aux entrées de plusieurs frameworks.

Le flux de travail ne nécessite pas non plus de distorsion point par point clé, le système peut sélectionner les fonctionnalités les plus appropriées à partir d'une série d'images.

DeepFake na jamais été aussi réel ! Quelle est la force de la dernière « distorsion implicite » de Nvidia ?

La déformation implicite réutilise également certains composants de prédiction de points clés dans le cadre FOMM et utilise enfin un simple U-net pour coder la représentation de points clés dérivée spatialement. Un U-net distinct est utilisé pour coder l'image source avec la représentation spatiale dérivée. Les deux réseaux peuvent fonctionner à des résolutions allant de 64 px (sortie carrée de 256 px) à 384 x 384 px.

DeepFake na jamais été aussi réel ! Quelle est la force de la dernière « distorsion implicite » de Nvidia ?

Étant donné que ce mécanisme ne peut pas automatiquement prendre en compte tous les changements possibles dans les poses et les mouvements dans une vidéo donnée, des images clés supplémentaires sont nécessaires et peuvent être ajoutées de manière ponctuelle. Sans cette capacité d'intervention, les touches qui ne sont pas suffisamment similaires au point de mouvement cible seront automatiquement mises à jour, entraînant une diminution de la qualité de sortie.

L'explication des chercheurs est que, bien qu'il s'agisse de la clé la plus similaire à la requête dans un ensemble d'images clés donné, elle peut ne pas être suffisante pour produire un bon résultat.

Par exemple, supposons que l'image source ait un visage avec des lèvres fermées et que l'image pilote ait un visage avec des lèvres ouvertes et des dents exposées. Dans ce cas, il n’existe pas de clé (ni de valeur) appropriée dans l’image source pour piloter la région buccale de l’image.

Cette méthode surmonte ce problème en apprenant des paires clé-valeur supplémentaires indépendantes de l'image, qui peuvent faire face au manque d'informations dans l'image source.

Bien que la mise en œuvre actuelle soit assez rapide, environ 10 FPS sur une image de 512x512px, les chercheurs pensent que dans les versions futures, le pipeline pourrait être amélioré avec une couche d'attention I-D factorisée ou une couche d'attention spatiale réduite (SRA) (c'est-à-dire une couche visuelle pyramidale Transformateur) à optimiser.

DeepFake na jamais été aussi réel ! Quelle est la force de la dernière « distorsion implicite » de Nvidia ?

Étant donné que la déformation implicite utilise l'attention globale au lieu de l'attention locale, elle peut prédire des facteurs que les modèles précédents ne peuvent pas prédire.

Résultats expérimentaux

Les chercheurs ont testé le système sur l'ensemble de données VoxCeleb2, l'ensemble de données TED Talk le plus complexe, et l'ensemble de données TalkingHead-1KH, en comparant les lignes de base entre les résolutions de 256 x 256 px et celles de 512 x 512 px. Les métriques utilisées incluent le FID et le LPIPS basé sur AlexNet. et le rapport signal/bruit de crête (pSNR).

Les cadres de comparaison utilisés pour les tests incluent FOMM et face-vid2vid, ainsi que AA-PCA, étant donné que les méthodes précédentes ont peu ou pas de capacité à utiliser plusieurs images clés, c'est également la principale innovation en matière de distorsion implicite. méthodes d'essais.

DeepFake na jamais été aussi réel ! Quelle est la force de la dernière « distorsion implicite » de Nvidia ?

La déformation implicite surpasse la plupart des méthodes contrastées sur la plupart des métriques.

Dans le test de reconstruction multi-images clés, dans lequel les chercheurs ont utilisé des séquences allant jusqu'à 180 images et des images d'espacement sélectionnées, la distorsion implicite a globalement gagné cette fois.

DeepFake na jamais été aussi réel ! Quelle est la force de la dernière « distorsion implicite » de Nvidia ?

À mesure que le nombre d'images sources augmente, la méthode peut obtenir de meilleurs résultats de reconstruction et les scores de tous les indicateurs s'améliorent.

Et à mesure que le nombre d'images sources augmente, l'effet de reconstruction des travaux précédents s'aggrave, contrairement aux attentes.

DeepFake na jamais été aussi réel ! Quelle est la force de la dernière « distorsion implicite » de Nvidia ?

Après avoir mené des recherches qualitatives auprès du personnel de l'AMT, on pense également que les résultats de génération de déformation implicite sont plus forts que les autres méthodes.

DeepFake na jamais été aussi réel ! Quelle est la force de la dernière « distorsion implicite » de Nvidia ?

En ayant accès à ce framework, les utilisateurs seraient en mesure de produire des simulations vidéo plus cohérentes et plus longues et des vidéos deepfake de tout le corps, qui seraient toutes capables de démontrer de meilleures performances que n'importe quel framework sur lequel le système a été expérimenté. avec. Une amplitude de mouvement beaucoup plus grande.

Cependant, la recherche sur une synthèse d'images plus réaliste suscite également des inquiétudes, car ces techniques peuvent être facilement utilisées à des fins de contrefaçon, et il existe une clause de non-responsabilité standard dans le document.

Si notre méthode est utilisée pour créer des produits DeepFake, cela peut avoir des conséquences négatives. La synthèse vocale malveillante crée de fausses images de personnes en transférant et en transmettant de fausses informations à travers les identités, conduisant au vol d'identité ou à la diffusion de fausses nouvelles. Mais dans des environnements contrôlés, la même technologie peut également être utilisée à des fins de divertissement.

Le document souligne également le potentiel de ce système pour la reconstruction de vidéos neuronales, comme le projet Starline de Google, où l'effort de reconstruction est principalement concentré du côté client, en exploitant les informations de mouvement clairsemées de la personne à l'autre bout du fil.

Cette solution suscite de plus en plus l'intérêt de la communauté des chercheurs, et certaines entreprises envisagent également de mettre en œuvre des conférences téléphoniques à faible bande passante en envoyant des données de mouvement pures ou des images clés peu espacées, qui seront interprétées une fois arrivées chez le client cible. et inséré dans une vidéo Full HD.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Cet article vous suffit pour en savoir plus sur la conduite autonome et la prédiction de trajectoire ! Cet article vous suffit pour en savoir plus sur la conduite autonome et la prédiction de trajectoire ! Feb 28, 2024 pm 07:20 PM

La prédiction de trajectoire joue un rôle important dans la conduite autonome. La prédiction de trajectoire de conduite autonome fait référence à la prédiction de la trajectoire de conduite future du véhicule en analysant diverses données pendant le processus de conduite du véhicule. En tant que module central de la conduite autonome, la qualité de la prédiction de trajectoire est cruciale pour le contrôle de la planification en aval. La tâche de prédiction de trajectoire dispose d'une riche pile technologique et nécessite une connaissance de la perception dynamique/statique de la conduite autonome, des cartes de haute précision, des lignes de voie, des compétences en architecture de réseau neuronal (CNN&GNN&Transformer), etc. Il est très difficile de démarrer ! De nombreux fans espèrent se lancer dans la prédiction de trajectoire le plus tôt possible et éviter les pièges. Aujourd'hui, je vais faire le point sur quelques problèmes courants et des méthodes d'apprentissage introductives pour la prédiction de trajectoire ! Connaissances introductives 1. Existe-t-il un ordre d'entrée pour les épreuves de prévisualisation ? R : Regardez d’abord l’enquête, p

Le papier Stable Diffusion 3 est enfin publié, et les détails architecturaux sont révélés. Cela aidera-t-il à reproduire Sora ? Le papier Stable Diffusion 3 est enfin publié, et les détails architecturaux sont révélés. Cela aidera-t-il à reproduire Sora ? Mar 06, 2024 pm 05:34 PM

L'article de StableDiffusion3 est enfin là ! Ce modèle est sorti il ​​y a deux semaines et utilise la même architecture DiT (DiffusionTransformer) que Sora. Il a fait beaucoup de bruit dès sa sortie. Par rapport à la version précédente, la qualité des images générées par StableDiffusion3 a été considérablement améliorée. Il prend désormais en charge les invites multithèmes, et l'effet d'écriture de texte a également été amélioré et les caractères tronqués n'apparaissent plus. StabilityAI a souligné que StableDiffusion3 est une série de modèles avec des tailles de paramètres allant de 800M à 8B. Cette plage de paramètres signifie que le modèle peut être exécuté directement sur de nombreux appareils portables, réduisant ainsi considérablement l'utilisation de l'IA.

Avez-vous vraiment maîtrisé la conversion des systèmes de coordonnées ? Des enjeux multi-capteurs indispensables à la conduite autonome Avez-vous vraiment maîtrisé la conversion des systèmes de coordonnées ? Des enjeux multi-capteurs indispensables à la conduite autonome Oct 12, 2023 am 11:21 AM

Le premier article pilote et clé présente principalement plusieurs systèmes de coordonnées couramment utilisés dans la technologie de conduite autonome, et comment compléter la corrélation et la conversion entre eux, et enfin construire un modèle d'environnement unifié. L'objectif ici est de comprendre la conversion du véhicule en corps rigide de caméra (paramètres externes), la conversion de caméra en image (paramètres internes) et la conversion d'image en unité de pixel. La conversion de 3D en 2D aura une distorsion, une traduction, etc. Points clés : Le système de coordonnées du véhicule et le système de coordonnées du corps de la caméra doivent être réécrits : le système de coordonnées planes et le système de coordonnées des pixels Difficulté : la distorsion de l'image doit être prise en compte. La dé-distorsion et l'ajout de distorsion sont compensés sur le plan de l'image. 2. Introduction Il existe quatre systèmes de vision au total : système de coordonnées du plan de pixels (u, v), système de coordonnées d'image (x, y), système de coordonnées de caméra () et système de coordonnées mondiales (). Il existe une relation entre chaque système de coordonnées,

DualBEV : dépassant largement BEVFormer et BEVDet4D, ouvrez le livre ! DualBEV : dépassant largement BEVFormer et BEVDet4D, ouvrez le livre ! Mar 21, 2024 pm 05:21 PM

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.

Le premier modèle mondial de génération de vidéos de scènes de conduite autonomes multi-vues DrivingDiffusion : nouvelles idées pour les données et la simulation BEV Le premier modèle mondial de génération de vidéos de scènes de conduite autonomes multi-vues DrivingDiffusion : nouvelles idées pour les données et la simulation BEV Oct 23, 2023 am 11:13 AM

Quelques réflexions personnelles de l'auteur Dans le domaine de la conduite autonome, avec le développement de sous-tâches/solutions de bout en bout basées sur BEV, les données d'entraînement multi-vues de haute qualité et la construction de scènes de simulation correspondantes sont devenues de plus en plus importantes. En réponse aux problèmes des tâches actuelles, la « haute qualité » peut être divisée en trois aspects : des scénarios à longue traîne dans différentes dimensions : comme les véhicules à courte portée dans les données sur les obstacles et les angles de cap précis lors du découpage des voitures, et les données sur les lignes de voie. . Scènes telles que des courbes avec des courbures différentes ou des rampes/fusions/fusions difficiles à capturer. Celles-ci reposent souvent sur de grandes quantités de données collectées et sur des stratégies complexes d’exploration de données, qui sont coûteuses. Valeur réelle 3D - image hautement cohérente : l'acquisition actuelle des données BEV est souvent affectée par des erreurs d'installation/calibrage du capteur, des cartes de haute précision et l'algorithme de reconstruction lui-même. cela m'a amené à

GSLAM | Une architecture générale et un benchmark GSLAM | Une architecture générale et un benchmark Oct 20, 2023 am 11:37 AM

J'ai soudainement découvert un article vieux de 19 ans GSLAM : A General SLAM Framework and Benchmark open source code : https://github.com/zdzhaoyong/GSLAM Accédez directement au texte intégral et ressentez la qualité de ce travail ~ 1 Technologie SLAM abstraite a remporté de nombreux succès récemment et a attiré de nombreuses entreprises de haute technologie. Cependant, la question de savoir comment s'interfacer avec les algorithmes existants ou émergents pour effectuer efficacement des analyses comparatives en termes de vitesse, de robustesse et de portabilité reste une question. Dans cet article, une nouvelle plateforme SLAM appelée GSLAM est proposée, qui fournit non seulement des capacités d'évaluation, mais fournit également aux chercheurs un moyen utile de développer rapidement leurs propres systèmes SLAM.

'Minecraft' se transforme en une ville IA et les habitants des PNJ jouent comme de vraies personnes 'Minecraft' se transforme en une ville IA et les habitants des PNJ jouent comme de vraies personnes Jan 02, 2024 pm 06:25 PM

Veuillez noter que cet homme carré fronça les sourcils, pensant à l'identité des « invités non invités » devant lui. Il s’est avéré qu’elle se trouvait dans une situation dangereuse, et une fois qu’elle s’en est rendu compte, elle a rapidement commencé une recherche mentale pour trouver une stratégie pour résoudre le problème. Finalement, elle a décidé de fuir les lieux, de demander de l'aide le plus rapidement possible et d'agir immédiatement. En même temps, la personne de l'autre côté pensait la même chose qu'elle... Il y avait une telle scène dans "Minecraft" où tous les personnages étaient contrôlés par l'intelligence artificielle. Chacun d’eux a un cadre identitaire unique. Par exemple, la jeune fille mentionnée précédemment est une coursière de 17 ans mais intelligente et courageuse. Ils ont la capacité de se souvenir, de penser et de vivre comme des humains dans cette petite ville de Minecraft. Ce qui les anime est une toute nouvelle,

Plus qu'une simple gaussienne 3D ! Dernier aperçu des techniques de reconstruction 3D de pointe Plus qu'une simple gaussienne 3D ! Dernier aperçu des techniques de reconstruction 3D de pointe Jun 02, 2024 pm 06:57 PM

Écrit ci-dessus & La compréhension personnelle de l'auteur est que la reconstruction 3D basée sur l'image est une tâche difficile qui implique de déduire la forme 3D d'un objet ou d'une scène à partir d'un ensemble d'images d'entrée. Les méthodes basées sur l’apprentissage ont attiré l’attention pour leur capacité à estimer directement des formes 3D. Cet article de synthèse se concentre sur les techniques de reconstruction 3D de pointe, notamment la génération de nouvelles vues inédites. Un aperçu des développements récents dans les méthodes d'éclaboussure gaussienne est fourni, y compris les types d'entrée, les structures de modèle, les représentations de sortie et les stratégies de formation. Les défis non résolus et les orientations futures sont également discutés. Compte tenu des progrès rapides dans ce domaine et des nombreuses opportunités d’améliorer les méthodes de reconstruction 3D, un examen approfondi de l’algorithme semble crucial. Par conséquent, cette étude fournit un aperçu complet des progrès récents en matière de diffusion gaussienne. (Faites glisser votre pouce vers le haut

See all articles