


'Portail de contrôle de scène : téléportation d'objets quatre en un, soumis et produit par des fourmis'
Dans les opérations courantes d'édition d'images, la synthèse d'images fait référence au processus de combinaison de l'objet de premier plan d'une image avec une autre image d'arrière-plan pour générer une image composite. L'effet visuel de l'image synthétisée est similaire au transfert de l'objet de premier plan d'une image à une autre image d'arrière-plan, comme le montre la figure ci-dessous.

La synthèse d'image est utilisée dans la création artistique, la conception d'affiches, le commerce électronique et la réalité virtuelle. , L'augmentation des données et d'autres domaines sont largement utilisés
Les images synthétiques obtenues par simple copier-coller peuvent présenter de nombreux problèmes. Dans des travaux de recherche antérieurs, la synthèse d’images dérivait différentes sous-tâches pour résoudre respectivement différents sous-problèmes. Le mélange d’images, par exemple, vise à résoudre les frontières artificielles entre le premier plan et l’arrière-plan. L'harmonisation de l'image vise à ajuster l'éclairage du premier plan pour qu'il s'harmonise avec l'arrière-plan. L'ajustement de la perspective vise à ajuster la pose du premier plan afin qu'il corresponde à l'arrière-plan. Le placement d'objets vise à prédire l'emplacement, la taille et l'angle de perspective appropriés pour les objets au premier plan. La génération d'ombres vise à générer des ombres raisonnables pour les objets de premier plan sur l'arrière-plan
Comme le montre la figure ci-dessous, des travaux de recherche antérieurs ont effectué les sous-tâches ci-dessus de manière série ou parallèle pour obtenir des images synthétiques réalistes et naturelles. Dans le cadre sériel, nous pouvons exécuter sélectivement certaines sous-tâches en fonction des besoins réels. Dans le cadre parallèle, la méthode actuellement populaire consiste à utiliser le modèle de diffusion. Il accepte une image d'arrière-plan avec un cadre de délimitation au premier plan et une image d'objet au premier plan en entrée et génère directement l'image composite finale. Cela permet à l'objet de premier plan d'être intégré de manière transparente à l'image d'arrière-plan, les effets d'éclairage et d'ombre sont raisonnables et la posture est adaptée à l'arrière-plan. Ce cadre parallèle équivaut à exécuter plusieurs sous-tâches en même temps. Il ne peut pas en exécuter sélectivement certaines. Les sous-tâches et le sexe ne sont pas contrôlables, peuvent apporter des changements inutiles ou déraisonnables à la posture ou à la couleur des objets au premier plan.
Ce qui doit être réécrit est :
Afin d'améliorer la contrôlabilité du cadre parallèle et d'en exécuter certaines de manière sélective. sous-tâches, nous avons proposé le modèle de composition d'image contrôlable ControlCom (ControlCom). Comme le montre la figure ci-dessous, nous utilisons un vecteur indicateur comme informations de condition du modèle de diffusion pour contrôler les propriétés des objets de premier plan dans l'image composite. Le vecteur indicateur est un vecteur binaire bidimensionnel, où chaque dimension contrôle s'il faut ajuster respectivement les attributs d'éclairage et les attributs de posture de l'objet au premier plan, où 1 signifie ajustement, 0 signifie conserver
Nous incorporons quatre tâches dans le même cadre et réalisons la fonction d'un quatre-en-un portail d'objets via des vecteurs indicateurs, qui peuvent téléporter un objet vers un emplacement spécifié dans la scène. Ce travail a été réalisé par l'Université Jiao Tong de Shanghai et Ant Group. Le code et le modèle seront bientôt open source
Veuillez cliquer sur le lien suivant pour consulter l'article : https://arxiv.org/abs/2308.10040
Dans l'image ci-dessous, nous montrons la fonction de composition d'image contrôlable
Dans la colonne de gauche, la posture de l'objet au premier plan est initialement adapté à l'image d'arrière-plan, l'utilisateur peut souhaiter conserver la pose des objets du premier plan. Les méthodes précédentes PbE [1] et ObjectStitch [2] apporteront des modifications inutiles et incontrôlables à la pose des objets au premier plan. La version (1,0) de notre méthode est capable de préserver la pose de l'objet de premier plan, en mélangeant parfaitement l'objet de premier plan dans l'image d'arrière-plan avec un éclairage harmonieux

Ensuite, nous montrons plus de résultats de quatre versions de notre méthode (0,0), (1,0), (0,1), (1,1). On peut voir qu'en utilisant différents vecteurs indicateurs, notre méthode peut ajuster sélectivement certains attributs des objets de premier plan, contrôler efficacement l'effet de l'image composite et répondre aux différents besoins des utilisateurs.

Ce que nous devons réécrire est : quelle est la structure du modèle qui peut réaliser les quatre fonctions ? Notre méthode adopte la structure de modèle suivante. L'entrée du modèle comprend des images d'arrière-plan avec des cadres de délimitation de premier plan et des images d'objets de premier plan. Les caractéristiques et les vecteurs indicateurs des objets de premier plan sont combinés dans le modèle de diffusion.
Nous ré-extrayons les caractéristiques globales de. les objets de premier plan et les caractéristiques locales, et fusionnent d'abord les caractéristiques globales, puis les caractéristiques locales. Au cours du processus de fusion locale, nous utilisons des cartes de caractéristiques de premier plan alignées pour la modulation des caractéristiques afin d'obtenir une meilleure préservation des détails. Dans le même temps, les vecteurs indicateurs sont utilisés à la fois dans la fusion globale et dans la fusion locale pour contrôler plus complètement les propriétés des objets de premier plan.
Nous utilisons l'algorithme de diffusion stable pré-entraîné pour entraîner le modèle basé sur 1,9 million d'images d'OpenImage. Afin d'entraîner quatre sous-tâches simultanément, nous avons conçu un ensemble de processus de traitement et d'amélioration des données. Pour plus de détails sur les données et la formation, veuillez consulter le document

Nous avons testé sur l'ensemble de données COCOEE et un ensemble de données que nous avons construit nous-mêmes. Étant donné que les méthodes précédentes ne peuvent réaliser qu'une synthèse d'images incontrôlable, nous avons comparé la version (1,1) et les méthodes précédentes. Les résultats de la comparaison sont présentés dans la figure ci-dessous. PCTNet est une méthode d'harmonisation d'image qui peut préserver les détails des objets, mais ne peut pas ajuster la posture du premier plan, ni compléter les objets du premier plan. D'autres méthodes peuvent générer le même type d'objets, mais sont moins efficaces pour conserver les détails, comme le style des vêtements, la texture des tasses, la couleur des plumes d'oiseaux, etc.
Notre méthode est meilleure pour conserver les détails du premier plan Détails, compléter les objets de premier plan incomplets et ajuster l'éclairage, la posture et l'adaptation des objets de premier plan à l'arrière-plan
Ce travail est la première tentative de synthèse d'images contrôlable. La tâche est très difficile et il y en a encore beaucoup. Cependant, les performances du modèle ne sont pas suffisamment stables et robustes. De plus, en plus de l'éclairage et de la posture, les propriétés des objets au premier plan peuvent être encore affinées. Comment obtenir une synthèse d'image contrôlable plus fine est une tâche plus difficile
Afin de conserver l'intention initiale inchangée, elle doit l'être. réécrit Le contenu est : Référence
Yang, Gu, Zhang, Zhang, Chen, Sun, Chen, Wen (2023). Modèles d’édition et de diffusion d’images basés sur des exemples. Dans CVPR
[2] Song Yongzhong, Zhang Zhi, Lin Zhilong, Cohen, SD, Price, BL, Zhang Jing, Jin Suying, Arriaga, DG 2023. ObjectStitch : synthèse d'objets génératifs. En CVPR
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Dans la fabrication moderne, une détection précise des défauts est non seulement la clé pour garantir la qualité des produits, mais également la clé de l’amélioration de l’efficacité de la production. Cependant, les ensembles de données de détection de défauts existants manquent souvent de précision et de richesse sémantique requises pour les applications pratiques, ce qui rend les modèles incapables d'identifier des catégories ou des emplacements de défauts spécifiques. Afin de résoudre ce problème, une équipe de recherche de premier plan composée de l'Université des sciences et technologies de Hong Kong, Guangzhou et de Simou Technology a développé de manière innovante l'ensemble de données « DefectSpectrum », qui fournit une annotation à grande échelle détaillée et sémantiquement riche des défauts industriels. Comme le montre le tableau 1, par rapport à d'autres ensembles de données industrielles, l'ensemble de données « DefectSpectrum » fournit le plus grand nombre d'annotations de défauts (5 438 échantillons de défauts) et la classification de défauts la plus détaillée (125 catégories de défauts).

La communauté ouverte LLM est une époque où une centaine de fleurs fleurissent et s'affrontent. Vous pouvez voir Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 et bien d'autres. excellents interprètes. Cependant, par rapport aux grands modèles propriétaires représentés par le GPT-4-Turbo, les modèles ouverts présentent encore des lacunes importantes dans de nombreux domaines. En plus des modèles généraux, certains modèles ouverts spécialisés dans des domaines clés ont été développés, tels que DeepSeek-Coder-V2 pour la programmation et les mathématiques, et InternVL pour les tâches de langage visuel.

Les fichiers MDI sont un format de document électronique courant, dont le nom complet est Microsoft Document Imaging. Il s'agit d'un format de fichier développé par Microsoft Corporation pour stocker et afficher des documents numérisés. Les fichiers MDI permettent aux utilisateurs de numériser des documents papier en images numériques pouvant être visualisées, modifiées et imprimées à partir d'un ordinateur. Les fichiers MDI présentent de nombreux avantages, le premier étant leur grande compressibilité. Les fichiers MDI peuvent enregistrer les images numérisées dans la plus petite taille de fichier, ce qui est très avantageux pour le stockage et la transmission de documents. Deuxièmement

Pour l’IA, l’Olympiade mathématique n’est plus un problème. Jeudi, l'intelligence artificielle de Google DeepMind a réalisé un exploit : utiliser l'IA pour résoudre la vraie question de l'Olympiade mathématique internationale de cette année, l'OMI, et elle n'était qu'à un pas de remporter la médaille d'or. Le concours de l'OMI qui vient de se terminer la semaine dernière comportait six questions portant sur l'algèbre, la combinatoire, la géométrie et la théorie des nombres. Le système d'IA hybride proposé par Google a répondu correctement à quatre questions et a marqué 28 points, atteignant le niveau de la médaille d'argent. Plus tôt ce mois-ci, le professeur titulaire de l'UCLA, Terence Tao, venait de promouvoir l'Olympiade mathématique de l'IA (AIMO Progress Award) avec un prix d'un million de dollars. De manière inattendue, le niveau de résolution de problèmes d'IA s'était amélioré à ce niveau avant juillet. Posez les questions simultanément sur l'OMI. La chose la plus difficile à faire correctement est l'OMI, qui a la plus longue histoire, la plus grande échelle et la plus négative.

L'ensemble de données ScienceAI Question Answering (QA) joue un rôle essentiel dans la promotion de la recherche sur le traitement du langage naturel (NLP). Des ensembles de données d'assurance qualité de haute qualité peuvent non seulement être utilisés pour affiner les modèles, mais également évaluer efficacement les capacités des grands modèles linguistiques (LLM), en particulier la capacité à comprendre et à raisonner sur les connaissances scientifiques. Bien qu’il existe actuellement de nombreux ensembles de données scientifiques d’assurance qualité couvrant la médecine, la chimie, la biologie et d’autres domaines, ces ensembles de données présentent encore certaines lacunes. Premièrement, le formulaire de données est relativement simple, et la plupart sont des questions à choix multiples. Elles sont faciles à évaluer, mais limitent la plage de sélection des réponses du modèle et ne peuvent pas tester pleinement la capacité du modèle à répondre aux questions scientifiques. En revanche, les questions et réponses ouvertes

Editeur | ScienceAI Sur la base de données cliniques limitées, des centaines d'algorithmes médicaux ont été approuvés. Les scientifiques se demandent qui devrait tester les outils et comment le faire au mieux. Devin Singh a vu un patient pédiatrique aux urgences subir un arrêt cardiaque alors qu'il attendait un traitement pendant une longue période, ce qui l'a incité à explorer l'application de l'IA pour réduire les temps d'attente. À l’aide des données de triage des salles d’urgence de SickKids, Singh et ses collègues ont construit une série de modèles d’IA pour fournir des diagnostics potentiels et recommander des tests. Une étude a montré que ces modèles peuvent accélérer les visites chez le médecin de 22,3 %, accélérant ainsi le traitement des résultats de près de 3 heures par patient nécessitant un examen médical. Cependant, le succès des algorithmes d’intelligence artificielle dans la recherche ne fait que le vérifier.

Editeur | KX À ce jour, les détails structurels et la précision déterminés par cristallographie, des métaux simples aux grandes protéines membranaires, sont inégalés par aucune autre méthode. Cependant, le plus grand défi, appelé problème de phase, reste la récupération des informations de phase à partir d'amplitudes déterminées expérimentalement. Des chercheurs de l'Université de Copenhague au Danemark ont développé une méthode d'apprentissage en profondeur appelée PhAI pour résoudre les problèmes de phase cristalline. Un réseau neuronal d'apprentissage en profondeur formé à l'aide de millions de structures cristallines artificielles et de leurs données de diffraction synthétique correspondantes peut générer des cartes précises de densité électronique. L'étude montre que cette méthode de solution structurelle ab initio basée sur l'apprentissage profond peut résoudre le problème de phase avec une résolution de seulement 2 Angströms, ce qui équivaut à seulement 10 à 20 % des données disponibles à la résolution atomique, alors que le calcul ab initio traditionnel

Editeur | KX Dans le domaine de la recherche et du développement de médicaments, il est crucial de prédire avec précision et efficacité l'affinité de liaison des protéines et des ligands pour le criblage et l'optimisation des médicaments. Cependant, les études actuelles ne prennent pas en compte le rôle important des informations sur la surface moléculaire dans les interactions protéine-ligand. Sur cette base, des chercheurs de l'Université de Xiamen ont proposé un nouveau cadre d'extraction de caractéristiques multimodales (MFE), qui combine pour la première fois des informations sur la surface des protéines, la structure et la séquence 3D, et utilise un mécanisme d'attention croisée pour comparer différentes modalités. alignement. Les résultats expérimentaux démontrent que cette méthode atteint des performances de pointe dans la prédiction des affinités de liaison protéine-ligand. De plus, les études d’ablation démontrent l’efficacité et la nécessité des informations sur la surface des protéines et de l’alignement des caractéristiques multimodales dans ce cadre. Les recherches connexes commencent par "S
