Python でデータセットを読み取る方法: Pandas を使用して、pd.read_csv()、pd.read_excel()、または pd.read_json() を使用してデータ テーブルに読み取ります。 NumPy を使用して、np.genfromtxt() を使用して多次元配列を読み取ります。 scikit-learn を使用して、datasets.load_digitals() または datasets.load_iris() を使用して標準データセットをロードします。他の方法には、Python の csv および json モジュール、および xlrd などのサードパーティ ライブラリを使用することが含まれます。
Python でデータセットを読み取る方法
機械学習とデータ サイエンスでは、データセットの読み取りと処理が非常に重要です。 。 Python は、このプロセスをシンプルかつ効率的に行うためのさまざまなライブラリと関数を提供します。
1. Pandas の使用
Pandas ライブラリは、データ テーブルを読み取り、操作するための強力なメソッドを提供します。 Pandas を使用してデータセットを読み取るには、次の手順を実行します:
<code class="python">import pandas as pd # 从 CSV 文件读取数据集 df = pd.read_csv('data.csv') # 从 Excel 文件读取数据集 df = pd.read_excel('data.xlsx') # 从 JSON 文件读取数据集 df = pd.read_json('data.json')</code>
2. NumPy の使用
NumPy ライブラリは、多次元配列を読み取り、操作するためのメソッドを提供します。 NumPy を使用してデータセットを読み取るには、次の手順を実行します:
<code class="python">import numpy as np # 从 CSV 文件读取数据集 data = np.genfromtxt('data.csv', delimiter=',') # 从 Excel 文件读取数据集 data = np.genfromtxt('data.xlsx', delimiter=',', skip_header=1)</code>
3. scikit-learn の使用
scikit-learn ライブラリには、読み取りとロードのためのさまざまなオプションが用意されています。データセットのメソッド。 scikit-learn を使用してデータセットを読み込むには、次の手順を実行します:
<code class="python">from sklearn import datasets # 加载内置数据集 digits = datasets.load_digits() # 加载第三方数据集 iris = datasets.load_iris()</code>
4. その他のメソッド
上記のライブラリに加えて、読み取るための他のメソッドがあります。データ セットの例:
適切な方法を選択する
データ セットを読み取るためにどの方法を選択するかデータセットのフォーマット、サイズ、必要な操作によって異なります。データ テーブルを操作する必要がある場合は、Pandas が適しています。多次元配列を操作する必要がある場合は、NumPy がニーズを満たすことができます。 scikit-learn は、標準データセットの読み込みに最適です。
以上がPythonでデータセットを読み取る方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。