请我喝杯咖啡☕
*备忘录:
-
我的帖子解释了 MNIST、EMNIST、QMNIST、ETLCDB、Kuzushiji 和 Moving MNIST。
-
我的帖子解释了 Fashion-MNIST、Caltech 101、Caltech 256、CelebA、CIFAR-10 和 CIFAR-100。
-
我的帖子解释了 Oxford-IIIT Pet、Oxford 102 Flower、Stanford Cars、Places365、Flickr8k 和 Flickr30k。
-
我的帖子解释了 ImageNet、LSUN 和 MS COCO。
-
我的文章解释了图像分类(识别)、对象定位、对象检测和图像分割。
-
我的帖子解释了关键点检测(地标检测)、图像匹配、对象跟踪、立体匹配、视频预测、光流、图像字幕。
(1) PASCAL VOC(模式分析、统计建模和计算学习视觉对象类)(2005):
- 具有 4、10 或 20 个类别的对象图像和注释,并且有 8 个数据集 VOC2005、VOC2006、VOC2007、VOC2008, VOC2009、VOC2010、VOC2011 和 VOC2012:
*备注:
-
VOC2005 有 2,232 个图像和注释(一些用于训练,一些用于验证,一些用于测试),分为 4 个类别。
-
VOC2006 有 5,304 个图像和注释(1,277 个用于训练,1,341 个用于验证,2,686 个用于测试),共 10 个类别。
-
VOC2007 有 9,963 个图像和注释(2,501 个用于训练,2,510 个用于验证,4,952 个用于测试),共 20 个类别。
-
VOC2008 有 5,096 个图像和注释(2,111 个用于训练,2,221 个用于验证,764 个作为额外),有 20 个类别。 *里面有4,133张测试图片,忽略它们。
-
VOC2009 有 7,818 个图像和注释(3,473 个用于训练,3,581 个用于验证,764 个作为额外),有 20 个类别。
-
VOC2010 有 11,321 个图像和注释(4,998 个用于训练,5,105 个用于验证,1,218 个作为额外),有 20 个类别。
-
VOC2011 有 14,961 个图像和注释(5,717 个用于训练,5,823 个用于验证,3,421 个额外),有 20 个类别。
-
VOC2012 有 17,125 个图像和注释(5,717 个用于训练,5,823 个用于验证,5,585 个作为额外),有 20 个类别。
- 是 PyTorch 中的 VOCSegmentation() 和 VOCDetection()。
(2) SUN 数据库(场景理解数据库)(2010):
- 有 108,754 个场景图像,397 个类别。
- 也称为SUN397。
- 是 PyTorch 中的 SUN397()。
(3) 动力学数据集(2017):
- 有人类动作短片,有3个数据集Kinetics-400、Kinetics-600和Kinetics-700:
*备注:
- 每个视频片段持续约10秒。
-
Kinetics-400(2017) 有 306,245 个视频剪辑,每个视频剪辑都连接到来自 400 个类别的标签。
-
Kinetics-600(2018) 有 495,547 个视频剪辑,每个视频剪辑都连接到来自 600 个类别的标签。
-
Kinetics-700(2019) 有 545,317 个视频剪辑,每个视频剪辑都连接到来自 700 个类别的标签。
- 用于视频分类。
- 是 PyTorch 中的 Kinetics()。
(4)城市景观(2016):
- 拥有 25,000 张带注释的语义理解城市街景图像,分为 8 个类别 30 个类别。 *5,000 张图像进行精细标注,20,000 张图像进行粗标注。
- 用于图像分割。
- 是 PyTorch 中的 Cityscapes()。 *如何设置数据集没有解释。
精细注释的图像:
粗略注释的图像:
以上是计算机视觉数据集 (5)的详细内容。更多信息请关注PHP中文网其他相关文章!