"Le seul véritable voyage d'exploration n'est pas de visiter une terre étrangère, mais d'observer l'univers à travers les yeux des autres." - Marcel Proust
Voir le monde à travers les yeux des autres, cette science-fiction, Cette idée poétique (et terrifiante) est devenue réalité !
"Black Mirror" Saison 1 "Toute votre histoire"
Maintenant, nous pouvons reconstruire en trois dimensions l'objet que la personne observe simplement en utilisant le reflet de l'œil. .
Oui, c'est très Black Mirror.
Récemment, une équipe de l'Université du Maryland a proposé une toute nouvelle méthode - en utilisant des portraits incluant des reflets oculaires, pour capturer des scènes qui ne sont pas capturées par le caméra. Effectuer une reconstruction tridimensionnelle.
Adresse papier : https://arxiv.org/abs/2306.09348
Adresse du projet : https://world-from-eyes.github.io/
Utiliser la réflexion oculaire pour générer une reconstruction du champ de rayonnement ? Cette idée peut paraître folle, mais elle repose en réalité sur des bases théoriques suffisantes.
L'auteur a déclaré que parce que l'œil humain est hautement réfléchissant, à partir d'une série d'images capturant les mouvements de la tête, il est possible de reconstruire et de restituer la scène 3D que les gens observent en utilisant uniquement le reflet des yeux.
Comme ce concept est très "Black Mirror", et qu'une nouvelle saison de "Black Mirror" a été annoncée quelques heures seulement après la sortie de ce journal, cette coïncidence fait simplement douter que "Black Mirror " 》Le réalisateur a-t-il également remarqué ce papier ? (Dog Head)
La saison 6 de Black Mirror est lancée aujourd'hui
Dès la sortie de cette étude, les internautes sont devenus fous.
Alors on y est presque ?
N'est-ce pas la scène de « Ghost in the Shell » dans les années 2000 ? Toutes ces fictions sont devenues réalité !
100% Blade Runner, donne-m'en une copie maintenant.
Kip Brothers" est devenu réalité !Bien sûr, certaines personnes ont exprimé leur horreur : cette technologie peut être utilisé par des millions de personnes. Ne pas être utilisé pour des choses comme les enquêtes et la collecte de preuves.
Et aujourd'hui, nous avons déjà la caméra de suivi oculaire Varjo, il y a également le VisionPro d'Apple et d'autres casques. Ces appareils peuvent capturer une grande quantité de matériau d'objectif. Combinés à cette nouvelle technologie, d'innombrables nouvelles scènes de science-fiction pourraient bientôt devenir réalité... # En exploitant les minuscules reflets. de lumière sur l'œil humain, l'équipe de recherche a développé une méthode qui peut être utilisée en La séquence d'images monoculaires prises à la position de la caméra est utilisée pour reconstruire la scène (en vue non directe) observée par une personne.
Cependant, le simple entraînement du champ de rayonnement sur les réflexions observées n'est pas suffisant pour plusieurs raisons : 1) le bruit inhérent au positionnement cornéen, 2) la complexité de la texture de l'iris, 3) réflexions basse résolution capturées dans chaque image.
Pour relever ces défis, l'équipe a introduit l'optimisation de la pose de la cornée et la décomposition de la texture de l'iris pendant le processus d'entraînement, à l'aide d'une perte de régularisation de la texture radiale basée sur l'œil humain. iris.
Différente des méthodes traditionnelles d'entraînement du champ neuronal qui nécessitent de déplacer la caméra, la méthode utilisée place la caméra à un point de vue fixe et repose entièrement sur le mouvement de l'utilisateur.
Utiliser le reflet de l'œil humain pour réaliser une reconstruction de scènePuisqu'il est très difficile d'estimer avec précision la posture de l'œil, couplé avec la relation entre l'iris et le reflet de la scène. Les textures sont entrelacées, ce qui rend cette tâche assez difficile.
Pour résoudre ce problème, l'auteur a optimisé conjointement la pose de l'œil, le champ de rayonnement décrivant la scène et la texture de l'iris de l'œil de l'observateur.
Plus précisément, il y a trois contributions principales :
1. Nouvelle reconstruction 3D
propose une méthode pour reconstruire l'image à partir de l'oeil Nouveau des méthodes de reconstruction de scènes 3D du monde de l'observateur qui combinent des travaux fondamentaux antérieurs avec des avancées récentes en matière de rendu neuronal.
2. L'avant radial de l'irisest introduit Radial les a priori pour la décomposition de la texture de l'iris améliorent considérablement la qualité du champ de rayonnement reconstruit.
3. Optimisation de la posture cornéenne
a développé un Le processus L'optimisation de la pose cornéenne pour atténuer le bruit dans l'estimation de la pose de l'œil surmonte les défis uniques de l'extraction des caractéristiques de l'œil humain.
Les résultats montrent qu'avec cette nouvelle méthode, nous pouvons obtenir plusieurs perspectives de la scène à partir du reflet des yeux en déplaçant l'image, et finalement réaliser une reconstruction complète de la scène .
Ce qui est encore plus étonnant, c'est que l'équipe a également essayé d'utiliser les MV de Miley Cyrus et Lady Gaga pour reconstituer les yeux de leur scène.
Les auteurs ont déclaré avoir réussi à reconstruire les objets qui apparaissaient dans les yeux de Miley et que le haut du corps d'une personne semblait être vu à travers les yeux de Lady Gaga.
Cependant, la qualité de ces vidéos n'étant pas suffisamment élevée, l'exactitude des résultats de la reconstruction ne peut être conclue.
Lady Gaga#🎜 🎜#
Miley Cyrus#🎜 🎜# Comment faire ?
Il est bien connu que la géométrie cornéenne des adultes en bonne santé est quasiment la même.Ainsi, en calculant simplement la taille des pixels de la cornée d'une personne dans l'image, la position de ses yeux peut être calculée avec précision. Ensuite, les auteurs ont entraîné le champ de rayonnement réfléchi par l’œil en prenant les rayons de la caméra et en les réfléchissant pour se rapprocher de la géométrie de l’œil.
Afin d'éviter que l'iris de l'œil humain n'apparaisse dans la reconstruction, l'auteur a également formé un mappage de texture bidimensionnel qui a appris la texture de l'iris pour effectuer une décomposition de texture .
# 🎜 🎜#
#🎜 🎜#
Évaluation expérimentale
Évaluation des données synthétiques# 🎜🎜#
L'image ci-dessous montre une scène reconstituée en utilisant uniquement les reflets des yeux.
Puisque la cornée ne peut pas être parfaitement estimée dans la vie réelle, les auteurs ont évalué la robustesse de l'optimisation de la pose cornéenne par rapport au bruit estimé du rayon cornéen.
Pour simuler les erreurs d'estimation de profondeur qui peuvent être rencontrées dans les données réelles, les auteurs ont détruit les rayons cornéens observés dans chaque image en les mettant à l'échelle avec différents niveaux de bruit cornéen observé. rayon r_img.
La figure ci-dessous montre les changements de performances sous différents niveaux de bruit.
Il est à noter qu'à mesure que le bruit augmente, la reconstruction avec pose optimisée proposée par les auteurs est plus performante en termes de géométrie et de couleur reconstruites par rapport à la reconstruction sans pose optimisation. Plus robuste.
Cela prouve que l'optimisation de la pose est cruciale pour les scénarios du monde réel, car l'ajustement de la cornée projetée à l'ellipse initiale de l'image n'est pas parfait. De plus, des comparaisons quantitatives avec et sans décomposition de texture sont présentées, selon l'auteur. La méthode fonctionne mieux dans le cas de décomposition de texture en termes de SSIM et LPIPS.
Il est à noter que l'auteur n'a pas calculé le PSNR car dans le setup, la différence d'éclairage entre les reflets et la scène elle-même est très grande.
évaluation du monde réel
#🎜🎜 #Afin de garantir l'authenticité du champ de vision, l'auteur a choisi un appareil photo Sony RX IV pour la prise de vue et a utilisé Adobe Lightroom pour post-traiter l'image afin de réduire le bruit dans le reflet cornéen. Dans le même temps, l’auteur a ajouté des sources lumineuses des deux côtés du personnage pour éclairer l’objet cible.
Pendant le processus, la personne photographiée doit se déplacer dans le champ de vision de la caméra afin que l'équipe puisse capturer 5 à 15 images dans chaque scène.
En raison de la large plage dynamique de l'éclairage de la scène, les auteurs ont utilisé des images 16 bits dans toutes les expériences pour éviter de perdre des informations dans les réflexions observées.En moyenne, la cornée ne couvre qu'environ 0,1% de la surface de chaque image, tandis que l'objet cible occupe environ 20x20 pixels, entrelacés avec la texture de l'iris.
Traitement des données
L'auteur obtient d'abord l'estimation de la position initiale de la cornée en estimant le centre cornéen et le rayon de l'image.
Ensuite, la position tridimensionnelle de la cornée est calculée à l'aide d'une approximation directe de la profondeur moyenne et de la distance focale de la caméra, et sa normale à la surface est calculée .
Pour automatiser ce processus, l'auteur utilise Grounding Dino pour localiser le cadre de délimitation de l'œil et utilise ELLSeg pour effectuer un ajustement d'ellipse sur l'iris.Bien que la cornée soit généralement obstruée, nous n'avons besoin que de la zone non obstruée, nous pouvons donc utiliser Segment Anything pour obtenir un masque de segmentation de l'iris.
résultats réels
Comme le montre l'effet montré dans la figure ci-dessous, la méthode de l'auteur est capable de reconstruire des scènes 3D à partir d'images de portraits du monde réel, malgré l'imprécision de la position cornéenne et de l'estimation géométrique. .
Vous souhaitez obtenir une précision dans l'image en raison du flou de la cornée border Le positionnement est très difficile.
De plus, pour certaines couleurs d'yeux, comme le vert et le bleu, la reconstruction 3D sera également plus difficile car la texture de l'iris est plus claire.
De plus, lorsque la texture n'est pas explicitement modélisée, l'image reconstruite Il y aura plus d'"objets flottants".
Afin de résoudre ces problèmes, la qualité de la reconstruction peut être améliorée en augmentant le degré de régularisation radiale.
Cependant, cette méthode présente encore deux limites principales.
Tout d'abord, les résultats réels actuels sont basés sur des « paramètres de laboratoire », tels que le zoom sur les visages, l'utilisation de sources de lumière supplémentaires pour éclairer la scène, etc. Dans un environnement plus libre, vous devez faire face à des défis plus importants, tels qu'une résolution de capteur plus faible, une plage dynamique plus petite et un flou de mouvement.
Deuxièmement, les hypothèses actuelles sur la texture de l'iris (par exemple, texture constante, couleur radialement constante) peuvent être trop simplistes, de sorte que la méthode peut échouer lorsque l'œil tourne de manière significative.
Le co-auteur Kevin Zhang est actuellement doctorant à l'Université du Maryland.
Brandon Y. Feng a obtenu son doctorat en informatique de l'Université du Maryland. Ses intérêts de recherche se concentrent sur l'imagerie informatique, la vision de niveau intermédiaire et la photographie informatique. Il a développé des algorithmes d'apprentissage automatique pour le traitement d'images et de données 3D, avec des applications allant de la réalité mixte aux sciences naturelles.
Jia-Bin Huang est professeur agrégé à l'Université du Maryland et a précédemment obtenu un doctorat de l'UIUC. Les intérêts de recherche se concentrent sur l’intersection de la vision par ordinateur, de l’infographie et de l’apprentissage automatique.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!