L'occlusion est l'un des problèmes les plus fondamentaux mais toujours non résolus de la vision par ordinateur, car l'occlusion signifie le manque d'informations visuelles, tandis que les systèmes de vision industrielle s'appuient sur des informations visuelles pour la perception et la compréhension, et dans le monde réel, entre les objets. Occlusion mutuelle est partout. Les derniers travaux de l'équipe d'Andrew Zisserman du laboratoire VGG de l'université d'Oxford ont résolu systématiquement le problème de l'occlusion complète d'objets arbitraires et ont proposé un nouvel ensemble de données d'évaluation plus précise pour ce problème. Ce travail a été salué par le patron du MPI Michael Black, le compte officiel du CVPR, le compte officiel du Département d'informatique de l'Université de Californie du Sud, etc. sur la plateforme X. Ce qui suit est le contenu principal de l'article « Amodal Ground Truth and Completion in the Wild ».
La segmentation modale est conçue pour compléter l'objet étant la partie occluse, c'est-à-dire c'est-à-dire un masque de forme qui donne les parties visibles et invisibles de l'objet. Cette tâche peut bénéficier à de nombreuses tâches en aval : reconnaissance d'objets, détection de cibles, segmentation d'instances, édition d'images, reconstruction 3D, segmentation d'objets vidéo, support du raisonnement relationnel entre objets, manipulation et navigation du robot, car dans ces tâches, on sait que l'objet occulté est intact La forme aidera.
Cependant, comment évaluer les performances d'un modèle pour la segmentation non modale dans le monde réel est un problème difficile : bien qu'il y ait un grand nombre d'objets occultés dans de nombreuses images, comment obtenir une référence pour les formes complètes de ces objets. Qu'en est-il des masques standards ou non modaux ? Les travaux antérieurs impliquaient l'annotation manuelle de masques non modaux, mais les normes de référence pour une telle annotation sont difficiles à éviter d'introduire des erreurs humaines. Il existe également des travaux consistant à créer des ensembles de données synthétiques, par exemple en attachant directement un autre objet à un objet complet. forme complète de l'objet occulté, mais les images obtenues de cette manière ne sont pas de véritables scènes d'images. Par conséquent, ce travail propose une méthode par projection de modèle 3D pour construire un ensemble de données d'images réelles à grande échelle (MP3D-Amodal) couvrant plusieurs catégories d'objets et fournissant des masques amodaux pour évaluer avec précision les performances de la segmentation amodale. La comparaison des différents ensembles de données est la suivante :
Plus précisément, en prenant l'ensemble de données MatterPort3D comme exemple, pour tout ensemble de données avec de vraies photos et une structure tridimensionnelle de la scène, nous pouvons combiner les données de tous les objets de la scène La forme tridimensionnelle est projetée simultanément sur la caméra pour obtenir le masque modal de chaque objet (la forme visible, car les objets s'occultent les uns les autres), puis la forme tridimensionnelle de chaque objet dans la scène est projetée sur la caméra séparément pour obtenir le masque non modal de l'objet, c'est-à-dire la forme complète. En comparant le masque modal et le masque non modal, les objets masqués peuvent être repérés.
Les statistiques de l'ensemble de données sont les suivantes :
Un échantillon de l'ensemble de données est le suivant :
De plus, résoudre la forme complète tâche de reconstruction de n'importe quel objet, l'auteur extrait les connaissances préalables sur la forme complète de l'objet à partir des caractéristiques du modèle de diffusion stable pour effectuer une segmentation non modale de tout objet occlus. L'architecture spécifique est la suivante (SDAmodal) :
.La motivation pour proposer d'utiliser la fonction de diffusion stable est que Stable Diffusion a la capacité de compléter des images, elle peut donc contenir toutes les informations sur l'objet dans une certaine mesure et parce que Stable Diffusion a été entraînée avec un grand nombre d'images. nombre d'images, on peut s'attendre à ce qu'il ait la capacité de traiter n'importe quel objet dans n'importe quel environnement. Contrairement aux cadres en deux étapes précédents, SDAmodal ne nécessite pas de masques d'occlusion annotés en entrée ; SDAmodal a une structure simple, mais montre une forte capacité de généralisation à échantillon nul (comparez les paramètres F et H dans le tableau suivant, seule la formation sur COCOA peut améliorer sur un autre ensemble de données dans un domaine différent et des catégories différentes) ; même s'il n'y a pas d'annotation des objets occlus, SDAmodal peut améliorer l'ensemble de données existant COCOA couvrant plusieurs types d'objets occlus et le nouveau jeu de données proposé sur MP3D-Amodal, Les performances SOTA (réglage H) ont été atteintes.
En plus des expériences quantitatives, les comparaisons qualitatives reflètent également les avantages du modèle SDAmodal : On peut l'observer sur la figure ci-dessous (tous les modèles sont uniquement entraînés sur COCOA), pour différents types d'objets occlus, que ce soit Qu'il provienne de COCOA ou d'un autre MP3D-Amodal, SDAmodal peut grandement améliorer l'effet de segmentation non modale, et le masque non modal prédit est plus proche du réel.
Pour plus de détails, veuillez lire l'article original.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!