pandas データ クリーニングのマスターになる: 入門から習得まで
Jan 24, 2024 am 09:29 AM入門から習得まで: pandas のデータ クリーニング手法をマスターする
はじめに:
データ サイエンスと機械学習の分野では、データ クリーニングは重要な要素です。データ分析の重要なステップの説明。データをクリーニングすることで、データセット内のエラーを修正し、欠損値を埋め、外れ値を処理し、データの一貫性と正確性を確保することができます。 Pandas は、Python で最も一般的に使用されるデータ分析ツールの 1 つであり、データ クリーニング プロセスをより簡潔かつ効率的に行うための一連の強力な機能とメソッドを提供します。この記事では、パンダのデータ クリーニング方法を段階的に紹介し、読者がデータ クリーニングにパンダを使用する方法をすぐに習得できるように、具体的なコード例を示します。
- パンダ ライブラリとデータ セットのインポート
まず、パンダ ライブラリをインポートし、クリーンアップするデータ セットを読み取る必要があります。 pandas のread_csv()
関数を使用して CSV ファイルを読み取ることも、read_excel()
関数を使用して Excel ファイルを読み取ることもできます。以下は、CSV ファイルを読み取るためのコード例です。
import pandas as pd # 读取CSV文件 df = pd.read_csv('data.csv')
- データ セットの概要の表示
データ クリーニングを開始する前に、いくつかの基本的なコマンドを使用して、データ セットの概要情報を表示できます。データセット。一般的に使用されるコマンドの一部を以下に示します。
df.head()
: データ セットの最初の数行を表示します。デフォルトは最初の 5 行です。df.tail()
: データ セットの最後の数行を表示します。デフォルトは最後の 5 行です。df.info()
: 各列のデータ型や null 以外の値の数など、データ セットの基本情報を表示します。df.describe()
: 各列の平均、標準偏差、最小値、最大値などを含む、データセットの統計的な概要を生成します。df.shape
: データ セットの形状、つまり行と列の数を表示します。
これらのコマンドは、データ セットの構造と内容をすばやく理解し、その後のデータ クリーニングの準備に役立ちます。
- 欠損値の処理
実際のデータセットでは、いくつかの欠損値が頻繁に発生します。欠損値に対処する方法は数多くありますが、一般的な方法のいくつかを以下に示します。
- 欠損値の削除: 欠損値を含む行を削除するには、
dropna()
関数を使用します。値または列。 - 欠損値を埋める:
fillna()
関数を使用して欠損値を埋めます。欠損値を 0 で埋めるには、fillna(0)
などの定数埋め込みを使用できます。また、fillna(df.mean())# などの平均値または中央値埋め込みも使用できます。 ## 欠損値を埋めるための値には、各列の平均値が入力されます。
# 删除包含缺失值的行 df.dropna(inplace=True) # 将缺失值填充为0 df.fillna(0, inplace=True)
- 重複値の処理
- 欠損値に加えて、重複値も存在する可能性があります。データセット内。重複値の処理はデータ クリーニングの重要な手順の 1 つであり、
drop_duplicates()関数を使用して重複値を削除できます。この関数は、最初に出現した値を保持し、後続の重複値を削除します。
# 删除重复值 df.drop_duplicates(inplace=True)
- 外れ値の処理
- データ セットには、いくつかの外れ値が存在する場合があります。異常値の処理は次の方法で実行できます。
- 異常値の削除: ブール値インデックスを使用して異常値を削除します。たとえば、
- df = df[df['column'] < 100]
を使用すると、列内の 100 を超える外れ値を削除できます。
外れ値を置換: - replace()
関数を使用して、外れ値を適切な値に置き換えます。たとえば、
df['column'].replace(100, df['column'].mean())を使用すると、列の値 100 を列の平均値に置き換えることができます。
# 删除异常值 df = df[df['column'] < 100] # 将异常值替换为均值 df['column'].replace(100, df['column'].mean(), inplace=True)
- データ型変換
- データセットの一部の列のデータ型が正しくない場合があります。データ型は、
astype()関数を使用して正しい型に変換できます。たとえば、
df['column'] = df['column'].astype(float)を使用して、列のデータ型を浮動小数点型に変換できます。
# 将某一列的数据类型转换为浮点型 df['column'] = df['column'].astype(float)
- データ列の名前変更
- データセット内の列名が要件を満たしていない場合
rename()この関数は列名の名前を変更します。
# 对列名进行重命名 df.rename(columns={'old_name': 'new_name'}, inplace=True)
- データの並べ替え
- 場合によっては、データ セットの値に従ってデータ セットを並べ替える必要があります。とあるコラム。データセットは、
sort_values()関数を使用して並べ替えることができます。
# 按照某一列的值对数据集进行升序排序 df.sort_values('column', ascending=True, inplace=True)
この記事では、パンダでの一般的なデータ クリーニング方法をいくつか紹介し、具体的なコード例を示します。これらの方法を習得することで、リーダーはデータ セット内の欠損値、重複値、外れ値をより適切に処理し、データ型の変換、列の名前変更、データの並べ替えを実行できるようになります。これらのコード例だけで、パンダのデータ クリーニング方法を入門から習熟までマスターし、実際のデータ分析プロジェクトに適用することができます。この記事が、読者がデータ クリーニングに pandas ライブラリをよりよく理解し、使用できるようになれば幸いです。
以上がpandas データ クリーニングのマスターになる: 入門から習得までの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

人気の記事

人気の記事

ホットな記事タグ

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











ワンクリックでPPTを生成!キミ: まずは「PPT出稼ぎ労働者」を普及させましょう

一般的なパンダのインストール問題の解決: インストール エラーの解釈と解決策

CVPR 2024 のすべての賞が発表されました!オフラインでのカンファレンスには1万人近くが参加し、Googleの中国人研究者が最優秀論文賞を受賞した

PyCharm Community Edition インストール ガイド: すべての手順をすばやくマスターする

ベアメタルから 700 億のパラメータを備えた大規模モデルまで、チュートリアルとすぐに使えるスクリプトがここにあります
