Python操作Excelシリーズ：データクリーニング-Python チュートリアル-php.cn

Python操作Excelシリーズ：データクリーニング

coldplay.xixi

リリース： 2021-03-02 10:20:00

転載

4261 人が閲覧しました

Python操作Excelシリーズ：データクリーニング

# 前回の記事ではExcelを操作しながら、データの読み込み、挿入、簡単な分析についてお話しましたが、もう一つ重要なポイントがデータのクリーニングです。では、データクリーニングとは何ですか? 率直に言うと、既存の null 値、冗長なスペース、データ形式など、データテキスト内のジャンク値を削除することを意味します。

関連する無料学習の推奨事項: Python ビデオチュートリアル

1、Python ライブラリをインポートし、Excel を読み取ります。データ

# 导入 pandas 库import pandas as pd# read_excel() 读取 excel 数据# DataFrame() 将读取到的数据转换为 DataFrame 数据df = pd.DataFrame(pd.read_excel('data.xlsx'))

ログイン後にコピー

2、データクリーニング (NULL 値の削除)

# dropna() 函数去除 df 数据表中存在空值的所有行df.dropna(how='any')# mean() 函数计算 age 字段所在列的平均值age_pre = df['age'].mean()# 使用 fillna() 函数对存在的空值进行填充，将 age_pre 的值填充到字段为空的值内面df['age'].fillna(age_pre)

ログイン後にコピー

3、データクリーニング (フィールド内のスペースの削除)

# 清除字段的空格df['name'] = df['name'].map(str.strip)

ログイン後にコピー

4、データクリーニング (特定の列の削除) rename)

# rename() 函数对列进行重命名df.rename(columns={'name': 'name_new'})

ログイン後にコピー

5, データクリーニング (列内の重複値の削除)

# 从前往后查找某个列中的重复值，如果存在则清除后面所出现的重复值df['name'].drop_duplicates()# 从后往前查找某个列中的重复值，如果存在则清除前面所出现的重复值df['city'].drop_duplicates(keep='last')# 两种正好是按照相反的清除顺序

ログイン後にコピー

6, データクリーニング (データ値の置換)

# 将某一列中的具体值进行替换df['name'].replace('laow', 'lwsbc')

ログイン後にコピー

関連無料学習の推奨事項: Python チュートリアル(ビデオ)

以上がPython操作Excelシリーズ：データクリーニングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python操作Excelシリーズ：データクリーニング

1、Python ライブラリをインポートし、Excel を読み取ります。データ

2、データ クリーニング (NULL 値の削除)

3、データ クリーニング (フィールド内のスペースの削除)

4、データ クリーニング (特定の列の削除) rename)

5, データ クリーニング (列内の重複値の削除)

6, データ クリーニング (データ値の置換)

2、データクリーニング (NULL 値の削除)

3、データクリーニング (フィールド内のスペースの削除)

4、データクリーニング (特定の列の削除) rename)

5, データクリーニング (列内の重複値の削除)

6, データクリーニング (データ値の置換)