Le meilleur article étudiant de l'ICCV2023 de cette année a été décerné à Qianqian Wang de l'Université Cornell, qui est actuellement chercheur postdoctoral à l'Université de Californie à Berkeley !
Globalement, l'estimation de trajectoires denses et à longue portée dans les vidéos reste un problème non résolu dans le domaine. Ce problème implique trois défis principaux : 1) Comment maintenir la précision de la trajectoire dans de longues séquences, 2) Comment suivre l'emplacement des points sous occlusion, 3) Comment maintenir la cohérence spatio-temporelle
Dans cet article, les auteurs proposent une nouvelle vidéo de mouvement méthode d'estimation qui utilise toutes les informations de la vidéo pour estimer conjointement la trajectoire de mouvement complète de chaque pixel. Cette méthode s'appelle "OmniMotion" et utilise une représentation quasi-3D. Dans cette représentation, un volume 3D standard est mappé sur un volume local à chaque image. Ce mappage sert d’extension flexible de la géométrie dynamique multi-vues et peut simuler simultanément le mouvement de la caméra et de la scène. Cette représentation garantit non seulement la cohérence de la boucle, mais garde également une trace de tous les pixels pendant les occultations. Les auteurs optimisent cette représentation pour chaque vidéo, fournissant une solution pour le mouvement tout au long de la vidéo. Après optimisation, cette représentation peut être interrogée sur n'importe quelles coordonnées continues de la vidéo pour obtenir des trajectoires de mouvement couvrant l'intégralité de la vidéo.
La méthode proposée dans cet article peut : 1) Générer une représentation complète globalement cohérente pour tous les points de l'ensemble des trajectoires de mouvement de la vidéo. , 2) suivi des points par occlusion et 3) traitement de vidéos réelles avec diverses combinaisons d'actions de caméra et de scène. Sur le benchmark de suivi vidéo TAP, la méthode fonctionne bien, dépassant de loin les méthodes précédentes.
3. MéthodeL'article propose une méthode basée sur l'optimisation du temps de test pour estimer les mouvements denses et longue distance à partir de séquences vidéo. Tout d'abord, donnons un aperçu de la méthode proposée dans l'article :
Le contenu vidéo est représenté par un volume typique nommé G, qui agit comme une carte tridimensionnelle de la scène observée. Semblable à ce qui a été fait dans NeRF, ils ont défini un réseau basé sur des coordonnées nerf qui mappe chaque coordonnée 3D typique uvw dans G à une densité σ et une couleur c. La densité stockée dans G nous indique où se trouve la surface dans un espace typique. Combiné avec des bijections 3D, cela nous permet de suivre des surfaces sur plusieurs images et de comprendre les relations d'occlusion. La couleur stockée dans G nous permet de calculer la perte photométrique lors de l'optimisation.
Cet article présente une cartographie de bijection continue, notée , qui transforme les points 3D d'un système de coordonnées local en un système de coordonnées 3D canonique. Cette coordonnée canonique sert de référence cohérente ou « d'index » dans le temps pour un point de scène ou une trajectoire 3D. Le principal avantage de l’utilisation des mappages bijectifs est la cohérence périodique qu’ils procurent aux points 3D entre différentes images, puisqu’ils proviennent tous du même point canonique.
L'équation de cartographie des points 3D d'un cadre local à un autre est la suivante :
Pour capturer un mouvement complexe du monde réel, ces bijections sont paramétrées en tant que réseaux de neurones inversibles (DCI). Le choix de Real-NVP comme modèle a été influencé par sa simplicité et ses propriétés analytiquement réversibles. Real-NVP implémente le mappage bijectif en utilisant des transformations de base appelées couches de couplage affine. Ces couches divisent l'entrée de sorte qu'une partie reste inchangée tandis que l'autre partie subit une transformation affine.
Pour améliorer encore cette architecture, nous pouvons le faire en conditionnant le code latent latent_i de chaque frame. Par conséquent, tous les mappages réversibles i sont déterminés par un seul réseau de cartographie réversible, mais ils ont des codes latents différents
Recalcul du mouvement inter-image
Cette section décrit comment calculer le mouvement 2D pour tout pixel de requête dans le cadre i. Intuitivement, les pixels de requête sont d'abord « soulevés » en 3D en échantillonnant des points sur les rayons, puis ces points 3D sont « mappés » sur le cadre cible j à l'aide du mappage de bijection i et du mappage j, suivi d'une composition alpha à partir de différents échantillons. Ces points 3D cartographiés sont "rendu" et enfin "projeté" en 2D pour obtenir une correspondance supposée.
Ce tableau de données expérimentales montre les performances de diverses méthodes d'estimation de mouvement sur trois ensembles de données - Cinétique, DAVIS et RGB-Stacking. Pour évaluer les performances des méthodes individuelles, quatre métriques sont utilisées : AJ, avg, OA et TC. En plus des deux méthodes proposées par les auteurs (la nôtre (TAP-Net) et notre (RAFT)), il existe 7 autres méthodes. Il convient de noter que les méthodes des deux auteurs fonctionnent bien sur la plupart des métriques et des ensembles de données. Plus précisément, notre méthode (RAFT) obtient les meilleurs résultats sur AJ, avg et OA pour les trois ensembles de données, tout en étant la deuxième meilleure sur TC. Notre méthode (TAP-Net) atteint également d’excellentes performances similaires sur certaines mesures. Pendant ce temps, d’autres méthodes ont des performances mitigées sur ces mesures. Il convient de mentionner que la méthode de l'auteur et la méthode "Deformable Sprites" estiment le mouvement global grâce à une optimisation du temps de test sur chaque vidéo, tandis que toutes les autres méthodes utilisent une approche directe pour effectuer une estimation du mouvement localement. En résumé, la méthode de l'auteur surpasse toutes les autres méthodes testées en termes de précision de position, de précision d'occlusion et de continuité temporelle, montrant des avantages significatifs
Il s'agit d'un tableau des résultats des expériences d'ablation pour l'ensemble de données DAVIS. Des expériences d'ablation sont menées pour vérifier la contribution de chaque composant aux performances globales du système. Il existe quatre méthodes répertoriées dans ce tableau, dont trois sont des versions qui suppriment certains composants clés, et la version finale « complète » inclut tous les composants.
Dans l'ensemble, les résultats de cette expérience d'ablation montrent que bien que chaque composant présente une certaine amélioration des performances, la réversibilité est probablement le composant le plus important, car sans elle, la perte de performances sera très grave
Les expériences d'ablation réalisées sur l'ensemble de données DAVIS dans ce travail nous fournissent des informations précieuses, révélant le rôle critique de chaque composant sur les performances globales du système. D’après les résultats expérimentaux, nous pouvons clairement voir que la composante de réversibilité joue un rôle crucial dans le cadre global. Lorsque ce composant essentiel est manquant, les performances du système diminuent considérablement. Cela souligne encore l’importance de prendre en compte la réversibilité dans l’analyse vidéo dynamique. Dans le même temps, bien que la perte de la composante photométrique entraîne également une dégradation des performances, elle ne semble pas avoir un impact aussi important sur les performances que la réversibilité. De plus, bien que la stratégie d'échantillonnage unifié ait un certain impact sur les performances, son impact est relativement faible par rapport aux deux premières. Enfin, l’approche complète intègre tous ces composants et nous montre les meilleures performances réalisables toutes considérations confondues. Dans l'ensemble, ce travail nous offre une opportunité précieuse de mieux comprendre comment les différents composants de l'analyse vidéo interagissent les uns avec les autres et leur contribution spécifique à la performance globale, soulignant ainsi la nécessité d'une approche intégrée lors de la conception et de l'optimisation des algorithmes de traitement vidéo.
Cependant, comme de nombreuses méthodes d'estimation de mouvement, notre méthode est confrontée à des difficultés dans la gestion de mouvements rapides et très non rigides et de petites structures. Dans ces scénarios, les méthodes de correspondance par paires peuvent ne pas fournir une correspondance suffisamment fiable pour que notre méthode puisse calculer un mouvement global précis. De plus, en raison de la nature hautement non convexe du problème d’optimisation sous-jacent, nous observons que pour certaines vidéos difficiles, notre processus d’optimisation peut être très sensible à l’initialisation. Cela peut conduire à des minima locaux sous-optimaux, par exemple un ordre de surface incorrect ou des objets en double dans l'espace canonique, qui sont parfois difficiles à corriger par l'optimisation.
Enfin, notre méthode peut être coûteuse en calcul dans sa forme actuelle. Premièrement, le processus de collecte de flux implique un calcul complet de tous les flux par paires, qui croissent quadratiquement avec la longueur de la séquence. Mais nous pensons que l’évolutivité de ce processus peut être améliorée en explorant des méthodes de correspondance plus efficaces, telles que les arbres de vocabulaire ou la correspondance basée sur des images clés, et en s’inspirant du mouvement structurel et de la littérature SLAM. Deuxièmement, comme d’autres méthodes utilisant des représentations neuronales implicites, notre méthode implique un processus d’optimisation relativement long. Des recherches récentes dans ce domaine peuvent contribuer à accélérer ce processus et à l'étendre davantage à des séquences plus longues
Cet article propose une nouvelle méthode d'optimisation du temps de test pour estimer l'intégralité du mouvement vidéo dans son ensemble, cohérente avec la situation globale. . Une nouvelle représentation de mouvement vidéo est introduite, appelée OmniMotion, qui consiste en un volume standard quasi-3D et des bijections canoniques locales pour chaque image. OmniMotion peut traiter une vidéo ordinaire avec différents paramètres de caméra et dynamiques de scène et produire des mouvements longue distance précis et fluides grâce à l'occlusion. Des améliorations significatives sont obtenues par rapport aux méthodes de pointe précédentes, tant qualitativement que quantitativement.
Le contenu qui doit être réécrit est : Lien original : https://mp.weixin.qq.com/s/HOIi5y9j-JwUImhpHPYgkg
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!