Achetez-moi un café☕
*Mémos :
-
Mon article explique MNIST, EMNIST, QMNIST, ETLCDB, Kuzushiji et Moving MNIST.
-
Mon article explique Fashion-MNIST, Caltech 101, Caltech 256, CelebA, CIFAR-10 et CIFAR-100.
-
Mon article explique Oxford-IIIT Pet, Oxford 102 Flower, Stanford Cars, Places365, Flickr8k et Flickr30k.
-
Mon article explique ImageNet, LSUN et MS COCO.
-
Mon article explique la classification des images (reconnaissance), la localisation d'objets, la détection d'objets et la segmentation d'images.
-
Mon article explique la détection de points clés (détection de points de repère), la correspondance d'images, le suivi d'objets, la correspondance stéréo, la prédiction vidéo, le flux optique, le sous-titrage d'images.
(1) PASCAL VOC (Analyse de modèles, modélisation statistique et classes d'objets visuels d'apprentissage informatique) (2005) :
- a des images d'objets et des annotations avec 4, 10 ou 20 classes et il y a les 8 ensembles de données VOC2005, VOC2006, VOC2007, VOC2008, VOC2009, VOC2010, VOC2011 et VOC2012 :
*Mémos :
-
VOC2005 compte 2 232 images et annotations (certaines pour l'entraînement, certaines pour la validation et certaines pour le test) avec 4 classes.
-
VOC2006 compte 5 304 images et annotations (1 277 pour le train, 1 341 pour la validation et 2 686 pour le test) avec 10 classes.
-
VOC2007 compte 9 963 images et annotations (2 501 pour le train, 2 510 pour la validation et 4 952 pour le test) avec 20 classes.
-
VOC2008 compte 5 096 images et annotations (2 111 pour le train, 2 221 pour la validation et 764 en supplément) avec 20 classes. *Il contient 4 133 images à tester, mais ignorez-les.
-
VOC2009 compte 7 818 images et annotations (3 473 pour le train, 3 581 pour la validation et 764 en supplément) avec 20 classes.
-
VOC2010 compte 11 321 images et annotations (4 998 pour le train, 5 105 pour la validation et 1 218 en supplément) avec 20 classes.
-
VOC2011 compte 14 961 images et annotations (5 717 pour le train, 5 823 pour la validation et 3 421 en supplément) avec 20 classes.
-
VOC2012 compte 17 125 images et annotations (5 717 pour le train, 5 823 pour la validation et 5 585 en supplément) avec 20 classes.
- est VOCSegmentation() et VOCDetection() dans PyTorch.
(2) Base de données SUN (base de données Scene UNderstanding)(2010) :
- possède 108 754 images de scènes avec 397 classes.
- est également appelé SUN397.
- est SUN397() dans PyTorch.
(3) Ensemble de données cinétiques (2017) :
- a de courts clips vidéo sur l'action humaine et il y a les 3 ensembles de données Kinetics-400, Kinetics-600 et Kinetics-700 :
*Mémos :
- Chaque clip vidéo dure environ 10 secondes.
-
Kinetics-400 (2017) compte 306 245 clips vidéo chacun connectés au label provenant de 400 catégories (classes).
-
Kinetics-600 (2018) compte 495 547 clips vidéo chacun connectés au label parmi 600 catégories.
-
Kinetics-700 (2019) compte 545 317 clips vidéo chacun connectés au label parmi 700 catégories.
- est utilisé pour la classification vidéo.
- est Kinetics() dans PyTorch.
(4) Paysages urbains (2016) :
- contient les 25 000 images annotées de scènes de rue urbaines de compréhension sémantique avec les 30 classes regroupées en 8 catégories. *5 000 images sont annotées finement et 20 000 images sont annotées grossièrement.
- est utilisé pour la segmentation d'images.
- est Cityscapes() dans PyTorch. *Comment définir l'ensemble de données n'est pas expliqué.
Images finement annotées :
Images grossièrement annotées :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!