データ分析と前処理では、データ内の重複項目を処理する必要があることがよくあります。 Python 正規表現の使用は、重複を削除する効率的かつ柔軟な方法です。この記事ではPythonの正規表現を使って重複を削除する方法を解説します。
まず、re や pandas などの必要なライブラリをインポートする必要があります。このうち、re ライブラリは Python 標準ライブラリの正規表現演算に特化したライブラリで、pandas ライブラリはデータ分析の分野では必須のデータ処理に使用されるライブラリです。
import re
import pandas as pd
次に、処理対象のデータを読み取る必要があります。ここでは例として csv ファイルを取り上げ、pandas ライブラリの read_csv 関数を使用してデータを読み取ります。
data = pd.read_csv('data.csv')
重複を削除する前に、データ。 pandas ライブラリの duplicated 関数を使用して、データの各行が前のデータ行と重複しているかどうかを判断できます。
is_duplicated = data.duplicated()
duplicated_data = data[is_duplicated]
print('There are %d重複' % len(duplicated_data))
重複のインデックスを使用して、正規表現を使用して重複を削除できます。ここでは、正規表現に基づいて文字列内の何かを置換できる re ライブラリのサブ関数を使用できます。
たとえば、文字列内の余分なスペースを削除したい場合は、次の正規表現を使用できます:
pattern = r's '
replacement = ' '
where, Pattern は余分なスペースに一致する正規表現パターンです。つまり、 s は 1 つ以上のスペースに一致することを意味し、replacement は置換される内容です。ここでは、余分なスペースを 1 つのスペースに置き換えます。
次に、この正規表現パターンをデータの各列に適用し、重複を削除します。
pattern = r's '
replacement = ' '
for col in data.columns:
data[col] = data[col].apply(lambda x: re.sub(pattern, replacement, str(x)))
重複排除の完了後、duplicated 関数を使用してデータ内に重複があるかどうかを再度チェックし、重複排除操作が正しいことを確認できます。
is_duplicated = data.duplicated()
if is_duplicated.any():
print('数据中仍存在重复项')
else:
print('数据中不存在重复项')
最後に、処理されたデータを後で使用できるようにファイルに書き込むことができます。
data.to_csv('processed_data.csv',index=False)
概要
正規表現は、文字列のマッチングに使用できる非常に強力なテキスト処理ツールです。 、交換およびその他の操作。データ分析と前処理では、正規表現を使用して重複を削除するのが効率的で柔軟な方法です。この記事では、Python の正規表現を使用して重複を削除する方法を紹介します。
以上がPython 正規表現を使用して重複を削除する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。