今日ビジネスや社会で人工知能について話すとき、私たちは実際には機械学習のことを指します。機械学習は、アルゴリズム (一連の命令) を使用して、特定のタスクに関連するデータにさらされるにつれて、そのタスクの実行がますます向上するアプリケーションです。
これらのタスクは、質問に答える、テキストや画像を作成する (ChatGPT や Dall-E などのアプリで実行できる)、画像を認識する (コンピューター ビジョン)、自動運転車をポイント A からナビゲートするまで、あらゆるものです。場所Bへ。
日々のタスクを自動化するために独自の機械学習アルゴリズムをトレーニングしたい企業には、これらのタスクをサポートするデータ ソースが必要です。
どのような種類のデータがありますか?
エンタープライズ データは、通常、内部データと外部データの 2 つのカテゴリに分類されます。
- 内部データは、企業組織自体がその業務から収集したデータであり、通常、財務データ、顧客フィードバック データ、人事データ、業務データ、およびその他のソースからのデータが含まれます。組織が自身の業務を監視する過程で収集したデータは独自データと呼ばれ、特定のビジネスに関する情報を提供するため貴重です。
- 外部データは、組織の外部のソースからのデータであり、通常は以下に示すサードパーティのデータ ソースから収集されます。データが誰でも自由に利用できる場合、それはオープンデータと呼ばれます。
さらに、データは構造化データ、非構造化データ、または半構造化データに分類することもできます。
- 構造化データは、テーブルにうまく収まる情報です。たとえば、企業がどの製品をいつ、どこで、いくらで販売するかを示す販売データは、内部的に構造化されたデータです。あるいは、企業は過去の市場データや経済指標を分析して、市場の将来の傾向を予測することを選択することもできます (構造化された外部データ)。
- 非構造化データとは、画像、ビデオ、テキスト、ソーシャル メディア コンテンツなど、その他すべてのものであり、確かに貴重な洞察が含まれている可能性がありますが、分析がより困難です。ただし、AI は、非構造化データから意味を抽出する場合に特に有用であることが証明されています。たとえば、画像認識アルゴリズムは、店内の CCTV 画像 (内部非構造化データ) を分析したり、ソーシャル メディアに投稿されたビジネス関連の画像 (非構造化外部データ) を分析して貴重な洞察を見つけたりすることで、顧客の行動に関する有益な情報を企業に伝えることができます。
幸いなことに、データはどこにでもあります。政府、研究機関、民間企業、NGO はすべて、研究目的だけでなく商用目的でもデータを無料で提供しています。そこで、2023 年に利用できる無料のオンライン データの最良のソースをいくつか紹介します。
データ検索エンジンとリポジトリ
- Google データセット検索 – これは基本的に、Google のカタログ化されたデータセットの検索エンジンです。この検索エンジンを使用すると、必要なデータをほぼすべて見つけることができます。
- AWS Open Data Search - Amazon の AWS が提供する別のデータセット検索エンジン。
- Microsoft Research Open Data - 主に科学に焦点を当てて Microsoft によって収集された無料のオープン データセット。
- UCI Machine Learning Repository - カリフォルニア大学アーバイン校によって厳選および維持されている 600 を超えるオープン データセットのリポジトリ。機械学習アルゴリズムのトレーニングに使用できます。
- Kaggle データセット – オンライン データ サイエンス プラットフォーム Kaggle は、大学ランキングから Google 検索トレンド、小売売上高、オンライン映画レビュー、犯罪統計に至るまで、あらゆるものを網羅する厳選されたデータセット カタログも提供しています。
- Reddit R/データセット - オンライン コミュニティ サイト Reddit のユーザーによって送信された巨大なデータセットで、数百のトピックをカバーしています。
政府および政府間組織向けのデータセット
- Data.Gov - 米国政府が提供するオープン データ ポータル。政府機関が公開する 100 万件のデータをホストしています。データが集中しています。
- Data.Census.Gov – 特に米国の人口統計データを探している場合は、ここから始めるのが最適です。
- Data.EU – EU のオープン データ ポータル。EU 組織からのデータと加盟国政府からのデータが含まれます。
- Data.gov.uk - 英国政府機関によって公開されているオープン データセット。
- 世界保健機関のデータ - 世界の健康と福祉に関連するデータセット。
- 世界銀行オープンデータ - 経済発展、国際金融市場、社会指標、環境問題に関連するデータセット。
画像データ
- Google Open Images - さまざまな方法で分類およびラベル付けされた数百万の画像。さまざまなタイプのコンピュータ ビジョン アルゴリズムのトレーニングに使用されます。
- ImageNet オープン データセット - 非商用の機械学習アプリケーションに無料で使用できる、ラベル付き画像で構成される別のデータセット。
- COCO データセット - Common Objects in Context (COCO) データセットには、オブジェクト検出およびキャプション アルゴリズムのトレーニング用に選択された 200,000 枚を超える画像が含まれています。
音声データ
- Mozilla Common Voice - 音声を含むあらゆる AI アプリケーションのトレーニングに使用できるオープン録音データ セット。
- Audioset - Google が厳選したもう 1 つのデータセット。これはサウンドに焦点を当てており、楽器、乗り物、ボーカルなどのカテゴリに分類された数十万の 10 秒サンプルが含まれています。
- 100 万曲データセット - 100 万曲の現代ポピュラー音楽トラックからのサンプルとメタデータ。
テキスト データ
- Wikidata - さまざまな形式での Wikipedia 記事のデータベース ダウンロード。
- Common Crawl - World Wide Web から収集されたオープン データ リポジトリ。ChatGPT やその他のチャットボット用の GPU 大規模言語モデルのトレーニングで最もよく知られています。
その他およびその他のデータセット
- Amazon レビュー - 製品情報や評価を含む、約 3,500 万件の Amazon 製品レビューのデータベース。
- Waymo オープン データセット – Alphabet の自動運転子会社 Waymo は、カメラや LiDAR センサーからのデータを含む、自動運転車を通じて収集された大量のデータを公開しました。
- Apolloscape データセット—Baidu のオープンソース Apollo プラットフォームによって、より多くの自動運転データが提供されます。
以上が誰でも AI の構築に使用できる 20 を超える強力な無料データ ソースを確認します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。