データの各行が重複かどうかを判断します

重複を表示

重複を削除するための正規表現パターンを定義します

データ内の各列を走査して重複を削除します

データに重複があるかどうかを再度確認します

ホームページ

バックエンド開発

Python チュートリアル

Python 正規表現を使用して重複を削除する方法

PHPz

Jun 22, 2023 pm 12:31 PM

python 正規表現重複を削除する

データ分析と前処理では、データ内の重複項目を処理する必要があることがよくあります。 Python 正規表現の使用は、重複を削除する効率的かつ柔軟な方法です。この記事ではPythonの正規表現を使って重複を削除する方法を解説します。

必要なライブラリをインポートする

まず、re や pandas などの必要なライブラリをインポートする必要があります。このうち、re ライブラリは Python 標準ライブラリの正規表現演算に特化したライブラリで、pandas ライブラリはデータ分析の分野では必須のデータ処理に使用されるライブラリです。

import re
import pandas as pd

Read data

次に、処理対象のデータを読み取る必要があります。ここでは例として csv ファイルを取り上げ、pandas ライブラリの read_csv 関数を使用してデータを読み取ります。

data = pd.read_csv('data.csv')

重複の検索

重複を削除する前に、データ。 pandas ライブラリの duplicated 関数を使用して、データの各行が前のデータ行と重複しているかどうかを判断できます。

データの各行が重複かどうかを判断します

is_duplicated = data.duplicated()

重複を表示

duplicated_data = data[is_duplicated]
print('There are %d重複' % len(duplicated_data))

重複の削除

重複のインデックスを使用して、正規表現を使用して重複を削除できます。ここでは、正規表現に基づいて文字列内の何かを置換できる re ライブラリのサブ関数を使用できます。

たとえば、文字列内の余分なスペースを削除したい場合は、次の正規表現を使用できます:

pattern = r's '
replacement = ' '

where, Pattern は余分なスペースに一致する正規表現パターンです。つまり、 s は 1 つ以上のスペースに一致することを意味し、replacement は置換される内容です。ここでは、余分なスペースを 1 つのスペースに置き換えます。

次に、この正規表現パターンをデータの各列に適用し、重複を削除します。

重複を削除するための正規表現パターンを定義します

pattern = r's '
replacement = ' '

データ内の各列を走査して重複を削除します

for col in data.columns:

data[col] = data[col].apply(lambda x: re.sub(pattern, replacement, str(x)))

ログイン後にコピー

重複排除の完了後、duplicated 関数を使用してデータ内に重複があるかどうかを再度チェックし、重複排除操作が正しいことを確認できます。

データに重複があるかどうかを再度確認します

is_duplicated = data.duplicated()
if is_duplicated.any():

print('数据中仍存在重复项')

ログイン後にコピー

else:

print('数据中不存在重复项')

ログイン後にコピー

処理されたデータをファイルに書き込む

最後に、処理されたデータを後で使用できるようにファイルに書き込むことができます。

data.to_csv('processed_data.csv',index=False)

概要

正規表現は、文字列のマッチングに使用できる非常に強力なテキスト処理ツールです。、交換およびその他の操作。データ分析と前処理では、正規表現を使用して重複を削除するのが効率的で柔軟な方法です。この記事では、Python の正規表現を使用して重複を削除する方法を紹介します。

以上がPython 正規表現を使用して重複を削除する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Java チュートリアル

1662

CakePHP チュートリアル

1419

Laravel チュートリアル

1312

PHP チュートリアル

1262

C# チュートリアル

1235

Related knowledge

PHPおよびPython：さまざまなパラダイムが説明されています Apr 18, 2025 am 12:26 AM

PHPは主に手順プログラミングですが、オブジェクト指向プログラミング（OOP）もサポートしています。 Pythonは、OOP、機能、手続き上のプログラミングなど、さまざまなパラダイムをサポートしています。 PHPはWeb開発に適しており、Pythonはデータ分析や機械学習などのさまざまなアプリケーションに適しています。

PHPとPythonの選択：ガイド Apr 18, 2025 am 12:24 AM

PHPはWeb開発と迅速なプロトタイピングに適しており、Pythonはデータサイエンスと機械学習に適しています。 1.PHPは、単純な構文と迅速な開発に適した動的なWeb開発に使用されます。 2。Pythonには簡潔な構文があり、複数のフィールドに適しており、強力なライブラリエコシステムがあります。

PHPとPython：彼らの歴史を深く掘り下げます Apr 18, 2025 am 12:25 AM

PHPは1994年に発信され、Rasmuslerdorfによって開発されました。もともとはウェブサイトの訪問者を追跡するために使用され、サーバー側のスクリプト言語に徐々に進化し、Web開発で広く使用されていました。 Pythonは、1980年代後半にGuidovan Rossumによって開発され、1991年に最初にリリースされました。コードの読みやすさとシンプルさを強調し、科学的コンピューティング、データ分析、その他の分野に適しています。

Python vs. JavaScript：学習曲線と使いやすさ Apr 16, 2025 am 12:12 AM

Pythonは、スムーズな学習曲線と簡潔な構文を備えた初心者により適しています。 JavaScriptは、急な学習曲線と柔軟な構文を備えたフロントエンド開発に適しています。 1。Python構文は直感的で、データサイエンスやバックエンド開発に適しています。 2。JavaScriptは柔軟で、フロントエンドおよびサーバー側のプログラミングで広く使用されています。

Sublime Code Pythonを実行する方法 Apr 16, 2025 am 08:48 AM

PythonコードをSublimeテキストで実行するには、最初にPythonプラグインをインストールし、次に.pyファイルを作成してコードを書き込み、Ctrl Bを押してコードを実行する必要があります。コードを実行すると、出力がコンソールに表示されます。

vscodeでコードを書く場所 Apr 15, 2025 pm 09:54 PM

Visual Studioコード（VSCODE）でコードを作成するのはシンプルで使いやすいです。 VSCODEをインストールし、プロジェクトの作成、言語の選択、ファイルの作成、コードの書き込み、保存して実行します。 VSCODEの利点には、クロスプラットフォーム、フリーおよびオープンソース、強力な機能、リッチエクステンション、軽量で高速が含まれます。

Visual StudioコードはPythonで使用できますか Apr 15, 2025 pm 08:18 PM

VSコードはPythonの書き込みに使用でき、Pythonアプリケーションを開発するための理想的なツールになる多くの機能を提供できます。ユーザーは以下を可能にします。Python拡張機能をインストールして、コードの完了、構文の強調表示、デバッグなどの関数を取得できます。デバッガーを使用して、コードを段階的に追跡し、エラーを見つけて修正します。バージョンコントロールのためにGitを統合します。コードフォーマットツールを使用して、コードの一貫性を維持します。糸くずツールを使用して、事前に潜在的な問題を発見します。

メモ帳でPythonを実行する方法 Apr 16, 2025 pm 07:33 PM

メモ帳でPythonコードを実行するには、Python実行可能ファイルとNPPEXECプラグインをインストールする必要があります。 Pythonをインストールしてパスを追加した後、nppexecプラグインでコマンド「python」とパラメーター "{current_directory} {file_name}"を構成して、メモ帳のショートカットキー「F6」を介してPythonコードを実行します。

See all articles

Python 正規表現を使用して重複を削除する方法

データの各行が重複かどうかを判断します

重複を表示

重複を削除するための正規表現パターンを定義します

データ内の各列を走査して重複を削除します

データに重複があるかどうかを再度確認します

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック