コーヒー買ってきて☕
*メモ:
-
私の投稿では、MNIST、EMNIST、QMNIST、ETLCDB、くずし字、Moving MNIST について説明しています。
-
私の投稿では、Fashion-MNIST、Caltech 101、Caltech 256、CelebA、CIFAR-10、CIFAR-100 について説明しています。
-
私の投稿では、Oxford-IIIT Pet、Oxford 102 Flower、Stanford Cars、Places365、Flickr8k、および Flickr30k について説明しています。
-
私の投稿では、ImageNet、LSUN、MS COCO について説明しています。
-
私の投稿では、画像分類 (認識)、オブジェクト位置特定、オブジェクト検出、画像セグメンテーションについて説明します。
-
私の投稿では、キーポイント検出 (ランドマーク検出)、画像マッチング、オブジェクト追跡、ステレオ マッチング、ビデオ予測、オプティカル フロー、画像キャプションについて説明します。
(1) PASCAL VOC (パターン分析、統計モデリング、および計算学習ビジュアル オブジェクト クラス)(2005):
- には 4、10、または 20 クラスのオブジェクト画像とアノテーションがあり、8 つのデータセット VOC2005、VOC2006、VOC2007、VOC2008、 VOC2009、VOC2010、VOC2011、および VOC2012:
*メモ:
-
VOC2005 には、4 つのクラスを持つ 2,232 個の画像と注釈 (トレーニング用、検証用、テスト用) が含まれています。
-
VOC2006 には、10 クラスの 5,304 個の画像と注釈 (電車用 1,277 個、検証用 1,341 個、テスト用 2,686 個) があります。
-
VOC2007 には、20 クラスの 9,963 個の画像と注釈 (電車用 2,501 個、検証用 2,510 個、テスト用 4,952 個) があります。
-
VOC2008 には、20 クラスの 5,096 個の画像と注釈 (電車用に 2,111 個、検証用に 2,221 個、追加として 764 個) があります。 ※テスト用の画像が4,133枚ありますが、無視してください。
-
VOC2009 には 7,818 個の画像と注釈 (電車用に 3,473 個、検証用に 3,581 個、追加として 764 個) と 20 のクラスがあります。
-
VOC2010 には、20 クラスの 11,321 個の画像と注釈 (電車用に 4,998 個、検証用に 5,105 個、追加として 1,218 個) があります。
-
VOC2011 には、20 クラスの 14,961 個の画像と注釈 (電車用に 5,717 個、検証用に 5,823 個、追加として 3,421 個) があります。
-
VOC2012 には、20 クラスの 17,125 個の画像と注釈 (電車用に 5,717 個、検証用に 5,823 個、追加として 5,585 個) があります。
- は、PyTorch の VOCSegmentation() および VOCDetection() です。
(2) SUNデータベース(シーン理解データベース)(2010):
- には、397 のクラスを持つ 108,754 のシーン イメージがあります。
- はSUN397とも呼ばれます。
- は PyTorch の SUN397() です。
(3) 動力学データセット(2017):
- には人間のアクションの短いビデオ クリップがあり、Kinetics-400、Kinetics-600、および Kinetics-700 の 3 つのデータセットがあります。
*メモ:
- 各ビデオ クリップは約 10 秒続きます。
-
Kinetics-400(2017) には、400 のカテゴリ (クラス) からのラベルにそれぞれ接続された 306,245 個のビデオ クリップがあります。
-
Kinetics-600(2018) には 495,547 個のビデオ クリップがあり、それぞれが 600 のカテゴリからラベルに接続されています。
-
Kinetics-700(2019) には 545,317 個のビデオ クリップがあり、それぞれが 700 のカテゴリからラベルに接続されています。
- はビデオ分類に使用されます。
- は PyTorch の Kinetics() です。
(4) 都市景観(2016):
- には、8 つのカテゴリにグループ化された 30 のクラスによる意味理解の注釈付き都市街路画像 25,000 枚が含まれています。 *5,000 枚の画像には細かいアノテーションが付けられ、20,000 枚の画像には粗いアノテーションが付けられます。
- は画像の分割に使用されます。
- は PyTorch の Cityscapes() です。 ※データセットの設定方法については説明しておりません。
細かい注釈が付けられた画像:
粗い注釈付き画像:
以上がコンピュータービジョン用のデータセット (5)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。