Python 正規表現を使用して重複を削除する方法

PHPz
リリース: 2023-06-22 12:31:52
オリジナル
1722 人が閲覧しました

データ分析と前処理では、データ内の重複項目を処理する必要があることがよくあります。 Python 正規表現の使用は、重複を削除する効率的かつ柔軟な方法です。この記事ではPythonの正規表現を使って重複を削除する方法を解説します。

  1. 必要なライブラリをインポートする

まず、re や pandas などの必要なライブラリをインポートする必要があります。このうち、re ライブラリは Python 標準ライブラリの正規表現演算に特化したライブラリで、pandas ライブラリはデータ分析の分野では必須のデータ処理に使用されるライブラリです。

import re
import pandas as pd

  1. Read data

次に、処理対象のデータを読み取る必要があります。ここでは例として csv ファイルを取り上げ、pandas ライブラリの read_csv 関数を使用してデータを読み取ります。

data = pd.read_csv('data.csv')

  1. 重複の検索

重複を削除する前に、データ。 pandas ライブラリの duplicated 関数を使用して、データの各行が前のデータ行と重複しているかどうかを判断できます。

データの各行が重複かどうかを判断します

is_duplicated = data.duplicated()

重複を表示

duplicated_data = data[is_duplicated]
print('There are %d重複' % len(duplicated_data))

  1. 重複の削除

重複のインデックスを使用して、正規表現を使用して重複を削除できます。ここでは、正規表現に基づいて文字列内の何かを置換できる re ライブラリのサブ関数を使用できます。

たとえば、文字列内の余分なスペースを削除したい場合は、次の正規表現を使用できます:

pattern = r's '
replacement = ' '

where, Pattern は余分なスペースに一致する正規表現パターンです。つまり、 s は 1 つ以上のスペースに一致することを意味し、replacement は置換される内容です。ここでは、余分なスペースを 1 つのスペースに置き換えます。

次に、この正規表現パターンをデータの各列に適用し、重複を削除します。

重複を削除するための正規表現パターンを定義します

pattern = r's '
replacement = ' '

データ内の各列を走査して重複を削除します

for col in data.columns:

data[col] = data[col].apply(lambda x: re.sub(pattern, replacement, str(x)))
ログイン後にコピー

重複排除の完了後、duplicated 関数を使用してデータ内に重複があるかどうかを再度チェックし、重複排除操作が正しいことを確認できます。

データに重複があるかどうかを再度確認します

is_duplicated = data.duplicated()
if is_duplicated.any():

print('数据中仍存在重复项')
ログイン後にコピー

else:

print('数据中不存在重复项')
ログイン後にコピー
  1. 処理されたデータをファイルに書き込む

最後に、処理されたデータを後で使用できるようにファイルに書き込むことができます。

data.to_csv('processed_data.csv',index=False)

概要

正規表現は、文字列のマッチングに使用できる非常に強力なテキスト処理ツールです。 、交換およびその他の操作。データ分析と前処理では、正規表現を使用して重複を削除するのが効率的で柔軟な方法です。この記事では、Python の正規表現を使用して重複を削除する方法を紹介します。

以上がPython 正規表現を使用して重複を削除する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!