Python でデータのクリーニングと処理を実行する方法
データのクリーニングと処理は、データ分析とマイニングのプロセスにおいて非常に重要なステップです。データのクリーニングと処理は、データの問題、欠落、または異常を発見し、その後のデータ分析とモデリングの準備に役立ちます。この記事では、データのクリーニングと処理に Python を使用する方法を紹介し、具体的なコード例を示します。
まず、pandas や numpy などの必要なライブラリをインポートする必要があります。
import pandas as pd import numpy as np
クリーンアップして処理するデータセットをロードする必要があります。 CSV ファイルは、pandas ライブラリの read_csv()
関数を使用してロードできます。
data = pd.read_csv('data.csv')
データのクリーンアップと処理を開始する前に、まずデータの形状、列などのデータの基本的な状況を確認します。最初の数行は待機します。
print(data.shape) # 打印数据的形状 print(data.columns) # 打印列名 print(data.head()) # 打印前几行数据
次に、データ内の欠損値に対処する必要があります。欠損値は、その後のデータ分析やモデリングの結果に影響を与える可能性があります。欠損値を処理するには、欠損値を含む行や列を削除する、欠損値を埋めるなど、さまざまな方法があります。
欠損値を含む行または列を削除する:
data.dropna() # 删除包含缺失值的行 data.dropna(axis=1) # 删除包含缺失值的列
欠損値を埋める:
data.fillna(0) # 用0填充缺失值 data.fillna(data.mean()) # 用均值填充缺失值
データ内重複した値も分析結果に影響を与える可能性があるため、重複した値を処理する必要があります。重複する値は、pandas ライブラリの drop_duplicates()
関数を使用して削除できます。
data.drop_duplicates() # 删除重复值
外れ値とは、データセット内の他の観測値と大きく異なる値であり、分析結果に偏りが生じる可能性があります。さまざまな統計手法を使用して、外れ値を検出して処理できます。
たとえば、外れ値を検出して処理するには、標準偏差の 3 倍の方法を使用します。
mean = data['column'].mean() std = data['column'].std() data = data[~((data['column'] - mean) > 3 * std)]
場合によっては、いくつかの処理を実行する必要があります。データの変換により、より適切な分析とモデリングが可能になります。たとえば、対数変換や正規化などです。
対数変換:
data['column'] = np.log(data['column'])
正規化:
data['column'] = (data['column'] - data['column'].min()) / (data['column'].max() - data['column'].min())
最後に、クリーンアップされ処理されたデータを保存します。後で使用できるように新しい CSV ファイルに保存されます。
data.to_csv('cleaned_data.csv', index=False)
概要:
この記事では、Python でデータ クリーニングと処理を実行する方法の具体的な手順を紹介し、対応するコード例を示します。データのクリーニングと処理は、データ分析とマイニングのプロセスにおける重要なリンクであり、その後の分析とモデリングの精度と信頼性を向上させることができます。これらのテクニックを習得することで、データをより適切に処理および分析できるようになります。
以上がPython でデータのクリーニングと処理を行う方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。