pandas データクリーニングのマスターになる: 入門から習得まで-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

pandas データクリーニングのマスターになる: 入門から習得まで

Jan 24, 2024 am 09:29 AM

はじめる pandas 熟練した

pandas データクリーニングのマスターになる: 入門から習得まで

入門から習得まで: pandas のデータクリーニング手法をマスターする

はじめに:
データサイエンスと機械学習の分野では、データクリーニングは重要な要素です。データ分析の重要なステップの説明。データをクリーニングすることで、データセット内のエラーを修正し、欠損値を埋め、外れ値を処理し、データの一貫性と正確性を確保することができます。 Pandas は、Python で最も一般的に使用されるデータ分析ツールの 1 つであり、データクリーニングプロセスをより簡潔かつ効率的に行うための一連の強力な機能とメソッドを提供します。この記事では、パンダのデータクリーニング方法を段階的に紹介し、読者がデータクリーニングにパンダを使用する方法をすぐに習得できるように、具体的なコード例を示します。

パンダライブラリとデータセットのインポート
まず、パンダライブラリをインポートし、クリーンアップするデータセットを読み取る必要があります。 pandas の read_csv() 関数を使用して CSV ファイルを読み取ることも、read_excel() 関数を使用して Excel ファイルを読み取ることもできます。以下は、CSV ファイルを読み取るためのコード例です。

import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')

ログイン後にコピー

データセットの概要の表示
データクリーニングを開始する前に、いくつかの基本的なコマンドを使用して、データセットの概要情報を表示できます。データセット。一般的に使用されるコマンドの一部を以下に示します。

df.head(): データセットの最初の数行を表示します。デフォルトは最初の 5 行です。
df.tail(): データセットの最後の数行を表示します。デフォルトは最後の 5 行です。
df.info(): 各列のデータ型や null 以外の値の数など、データセットの基本情報を表示します。
df.describe(): 各列の平均、標準偏差、最小値、最大値などを含む、データセットの統計的な概要を生成します。
df.shape: データセットの形状、つまり行と列の数を表示します。

これらのコマンドは、データセットの構造と内容をすばやく理解し、その後のデータクリーニングの準備に役立ちます。

欠損値の処理
実際のデータセットでは、いくつかの欠損値が頻繁に発生します。欠損値に対処する方法は数多くありますが、一般的な方法のいくつかを以下に示します。

欠損値の削除: 欠損値を含む行を削除するには、dropna() 関数を使用します。値または列。
欠損値を埋める: fillna() 関数を使用して欠損値を埋めます。欠損値を 0 で埋めるには、fillna(0) などの定数埋め込みを使用できます。また、fillna(df.mean())# などの平均値または中央値埋め込みも使用できます。 ## 欠損値を埋めるための値には、各列の平均値が入力されます。

以下は欠損値を処理するコード例です:

# 删除包含缺失值的行
df.dropna(inplace=True)

# 将缺失值填充为0
df.fillna(0, inplace=True)

ログイン後にコピー

欠損値に加えて、重複値も存在する可能性があります。データセット内。重複値の処理はデータクリーニングの重要な手順の 1 つであり、
drop_duplicates() 関数を使用して重複値を削除できます。この関数は、最初に出現した値を保持し、後続の重複値を削除します。

以下は、重複値を処理するためのコード例です。

# 删除重复值
df.drop_duplicates(inplace=True)

ログイン後にコピー

データセットには、いくつかの外れ値が存在する場合があります。異常値の処理は次の方法で実行できます。

df = df[df['column'] < 100] を使用すると、列内の 100 を超える外れ値を削除できます。
replace() 関数を使用して、外れ値を適切な値に置き換えます。たとえば、df['column'].replace(100, df['column'].mean()) を使用すると、列の値 100 を列の平均値に置き換えることができます。

以下は外れ値を処理するコード例です:

# 删除异常值
df = df[df['column'] < 100]

# 将异常值替换为均值
df['column'].replace(100, df['column'].mean(), inplace=True)

ログイン後にコピー

データセットの一部の列のデータ型が正しくない場合があります。データ型は、
astype() 関数を使用して正しい型に変換できます。たとえば、df['column'] = df['column'].astype(float) を使用して、列のデータ型を浮動小数点型に変換できます。

以下はデータ型変換のコード例です:

# 将某一列的数据类型转换为浮点型
df['column'] = df['column'].astype(float)

ログイン後にコピー

データセット内の列名が要件を満たしていない場合
rename()この関数は列名の名前を変更します。

以下は、データ列の名前を変更するコード例です:

# 对列名进行重命名
df.rename(columns={'old_name': 'new_name'}, inplace=True)

ログイン後にコピー

場合によっては、データセットの値に従ってデータセットを並べ替える必要があります。とあるコラム。データセットは、
sort_values() 関数を使用して並べ替えることができます。

以下はデータ並べ替えのコード例です:

# 按照某一列的值对数据集进行升序排序
df.sort_values('column', ascending=True, inplace=True)

ログイン後にコピー

結論:

この記事では、パンダでの一般的なデータクリーニング方法をいくつか紹介し、具体的なコード例を示します。これらの方法を習得することで、リーダーはデータセット内の欠損値、重複値、外れ値をより適切に処理し、データ型の変換、列の名前変更、データの並べ替えを実行できるようになります。これらのコード例だけで、パンダのデータクリーニング方法を入門から習熟までマスターし、実際のデータ分析プロジェクトに適用することができます。この記事が、読者がデータクリーニングに pandas ライブラリをよりよく理解し、使用できるようになれば幸いです。

以上がpandas データクリーニングのマスターになる: 入門から習得までの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。