Les ensembles de données d'images profondes sont un type de données très important dans les tâches d'apprentissage profond et de vision par ordinateur. Il contient des informations de profondeur pour chaque pixel et peut être utilisé pour diverses applications telles que la reconstruction de scènes, la détection d'objets et l'estimation de pose. Cet article présentera plusieurs ensembles de données d’images de profondeur couramment utilisés, y compris leurs sources, caractéristiques et applications.
1.NYU Depth V2
L'ensemble de données NYU Depth V2 contient des images de profondeur et des images RVB de scènes d'intérieur, avec un total de 1449 échantillons de scène. Ces scènes incluent divers environnements intérieurs tels que des chambres, des salons et des cuisines. Chaque scène fournit des informations sur les paramètres intrinsèques et extrinsèques de la caméra, qui peuvent être utilisées pour des tâches telles que l'estimation de la pose de la caméra et la reconstruction de scène. En outre, l'ensemble de données fournit également des informations d'annotation sur les objets de la scène, qui peuvent être utilisées pour des tâches telles que la détection d'objets et la segmentation sémantique.
2.Kinect Fusion
L'ensemble de données Kinect Fusion fournit des images RVB-D de plusieurs scènes et des modèles 3D correspondants, adaptés à des tâches telles que la reconstruction de scènes, l'estimation de pose 3D et la détection d'objets. En outre, l'ensemble de données prend également en charge les formats de données de plusieurs capteurs de profondeur, notamment des appareils tels que Microsoft Kinect, Asus Xtion Pro Live et Primesense Carmine 1.08. Ces données fournissent aux chercheurs et aux développeurs une riche ressource pour la recherche et le développement dans des domaines tels que l'apprentissage profond, la vision par ordinateur et la robotique.
3.SUN RGB-D
SUN RGB-D contient des images RVB-D et des informations d'annotation de scène pour les scènes intérieures et extérieures. L'ensemble de données contient un total de 10 335 échantillons de scènes, dont 5 285 scènes intérieures et 5 050 scènes extérieures. Chaque scène fournit des informations sur les paramètres intrinsèques et extrinsèques de la caméra, qui peuvent être utilisées pour des tâches telles que l'estimation de la pose de la caméra et la reconstruction de la scène. En outre, cet ensemble de données fournit également diverses informations d'annotation de scène, notamment les catégories d'objets, la segmentation sémantique et la disposition de la scène, etc., qui peuvent être utilisées pour des tâches telles que la détection d'objets, la segmentation sémantique et la compréhension de la scène.
4.ScanNet
ScanNet contient des images RVB-D et des informations d'annotation de scènes d'intérieur. L'ensemble de données contient un total de 1 513 échantillons de scènes, couvrant une variété d'environnements intérieurs différents, notamment des bureaux, des magasins, des écoles, etc. Chaque scène fournit des informations sur les paramètres intrinsèques et extrinsèques de la caméra, qui peuvent être utilisées pour des tâches telles que l'estimation de la pose de la caméra et la reconstruction de la scène. En outre, cet ensemble de données fournit également diverses informations d'annotation de scène, notamment les catégories d'objets, la segmentation sémantique et la disposition de la scène, etc., qui peuvent être utilisées pour des tâches telles que la détection d'objets, la segmentation sémantique et la compréhension de la scène.
5.3DMatch
3DMatch contient des images de profondeur et des données de nuages de points 3D provenant de plusieurs capteurs RVB-D. L'ensemble de données contient un total de 1 525 échantillons de scènes, couvrant une variété d'environnements intérieurs et extérieurs différents. Chaque scène fournit des informations sur les paramètres intrinsèques et extrinsèques de la caméra, qui peuvent être utilisées pour des tâches telles que l'estimation de la pose de la caméra et la reconstruction de la scène. En outre, cet ensemble de données fournit également de riches informations d'enregistrement de scène, notamment l'enregistrement de nuages de points et l'enregistrement d'images, qui peuvent être utilisées pour des tâches telles que la reconstruction 3D et la mise en correspondance de scènes.
En bref, les ensembles de données d'images de profondeur sont un type de données indispensable dans les domaines de l'apprentissage profond et de la vision par ordinateur. Ils peuvent être utilisés pour diverses tâches, telles que la reconstruction de scènes, la détection d'objets, l'estimation de pose et la segmentation sémantique. Les ensembles de données présentés ci-dessus sont tous des ensembles de données d'images de profondeur couramment utilisés. Leurs sources sont authentiques et fiables, et leurs caractéristiques et applications sont différentes. Des ensembles de données appropriés peuvent être sélectionnés pour la formation et l'évaluation en fonction des besoins de tâches spécifiques.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!