ホームページ > バックエンド開発 > Python チュートリアル > コンピュータービジョン用のデータセット (5)

コンピュータービジョン用のデータセット (5)

Barbara Streisand
リリース: 2024-12-26 16:42:15
オリジナル
464 人が閲覧しました

コーヒー買ってきて☕

*メモ:

  • 私の投稿では、MNIST、EMNIST、QMNIST、ETLCDB、くずし字、Moving MNIST について説明しています。
  • 私の投稿では、Fashion-MNIST、Caltech 101、Caltech 256、CelebA、CIFAR-10、CIFAR-100 について説明しています。
  • 私の投稿では、Oxford-IIIT Pet、Oxford 102 Flower、Stanford Cars、Places365、Flickr8k、および Flickr30k について説明しています。
  • 私の投稿では、ImageNet、LSUN、MS COCO について説明しています。
  • 私の投稿では、画像分類 (認識)、オブジェクト位置特定、オブジェクト検出、画像セグメンテーションについて説明します。
  • 私の投稿では、キーポイント検出 (ランドマーク検出)、画像マッチング、オブジェクト追跡、ステレオ マッチング、ビデオ予測、オプティカル フロー、画像キャプションについて説明します。

(1) PASCAL VOC (パターン分析、統計モデリング、および計算学習ビジュアル オブジェクト クラス)(2005):

  • には 4、10、または 20 クラスのオブジェクト画像とアノテーションがあり、8 つのデータセット VOC2005VOC2006VOC2007VOC2008VOC2009VOC2010VOC2011、および VOC2012: *メモ:
    • VOC2005 には、4 つのクラスを持つ 2,232 個の画像と注釈 (トレーニング用、検証用、テスト用) が含まれています。
    • VOC2006 には、10 クラスの 5,304 個の画像と注釈 (電車用 1,277 個、検証用 1,341 個、テスト用 2,686 個) があります。
    • VOC2007 には、20 クラスの 9,963 個の画像と注釈 (電車用 2,501 個、検証用 2,510 個、テスト用 4,952 個) があります。
    • VOC2008 には、20 クラスの 5,096 個の画像と注釈 (電車用に 2,111 個、検証用に 2,221 個、追加として 764 個) があります。 ※テスト用の画像が4,133枚ありますが、無視してください。
    • VOC2009 には 7,818 個の画像と注釈 (電車用に 3,473 個、検証用に 3,581 個、追加として 764 個) と 20 のクラスがあります。
    • VOC2010 には、20 クラスの 11,321 個の画像と注釈 (電車用に 4,998 個、検証用に 5,105 個、追加として 1,218 個) があります。
    • VOC2011 には、20 クラスの 14,961 個の画像と注釈 (電車用に 5,717 個、検証用に 5,823 個、追加として 3,421 個) があります。
    • VOC2012 には、20 クラスの 17,125 個の画像と注釈 (電車用に 5,717 個、検証用に 5,823 個、追加として 5,585 個) があります。
  • は、PyTorch の VOCSegmentation() および VOCDetection() です。

Datasets for Computer Vision (5)

(2) SUNデータベース(シーン理解データベース)(2010):

  • には、397 のクラスを持つ 108,754 のシーン イメージがあります。
  • はSUN397とも呼ばれます。
  • は PyTorch の SUN397() です。

Datasets for Computer Vision (5)

(3) 動力学データセット(2017):

  • には人間のアクションの短いビデオ クリップがあり、Kinetics-400Kinetics-600、および Kinetics-700 の 3 つのデータセットがあります。 *メモ:
    • 各ビデオ クリップは約 10 秒続きます。
    • Kinetics-400(2017) には、400 のカテゴリ (クラス) からのラベルにそれぞれ接続された 306,245 個のビデオ クリップがあります。
    • Kinetics-600(2018) には 495,547 個のビデオ クリップがあり、それぞれが 600 のカテゴリからラベルに接続されています。
    • Kinetics-700(2019) には 545,317 個のビデオ クリップがあり、それぞれが 700 のカテゴリからラベルに接続されています。
  • はビデオ分類に使用されます。
  • は PyTorch の Kinetics() です。

Datasets for Computer Vision (5)

(4) 都市景観(2016):

  • には、8 つのカテゴリにグループ化された 30 のクラスによる意味理解の注釈付き都市街路画像 25,000 枚が含まれています。 *5,000 枚の画像には細かいアノテーションが付けられ、20,000 枚の画像には粗いアノテーションが付けられます。
  • は画像の分割に使用されます。
  • は PyTorch の Cityscapes() です。 ※データセットの設定方法については説明しておりません。

細かい注釈が付けられた画像:

Datasets for Computer Vision (5)

粗い注釈付き画像:

Datasets for Computer Vision (5)

以上がコンピュータービジョン用のデータセット (5)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:dev.to
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート