ホームページ バックエンド開発 Python チュートリアル Pythonで文字列をクリーニングする例を詳しく解説

Pythonで文字列をクリーニングする例を詳しく解説

May 10, 2017 pm 12:00 PM
python 文字列処理 データクリーニング

この記事では主にPythonのデータクリーニングと文字列処理の関連情報を紹介しますので、必要な方は参考にしてください

はじめに

データクリーニングは複雑で面倒な(クビ)作業であり、データ全体でもあります。分析 プロセスにおける最も重要なリンク。分析プロジェクトの時間の 80% はデータのクリーニングに費やされるという人もいます。これは奇妙に聞こえますが、実際の作業ではこれが真実です。データ クリーニングの目的は 2 つあります。1 つ目は、クリーニングを通じてデータを利用できるようにすることです。 2 つ目は、データをその後の分析により適したものにすることです。言い換えれば、洗浄する必要がある「ダーティ」データと、同様に洗浄する必要があるクリーンなデータが存在します。

データ分析、特にテキスト分析では、文字処理に多くのエネルギーが必要となるため、文字処理を理解することもデータ分析にとって非常に重要な能力です。

文字列の処理メソッド

まずは、どのような基本的なメソッドがあるかを理解しましょう

まずは、stringのsplitメソッドを理解しましょう

str='i like apple,i like bananer'
print(str.split(','))
ログイン後にコピー

文字strをカンマで分割した結果:

['i like apple', 'i like bananer']

print(str.split(' '))
ログイン後にコピー

スペースに従って分割した結果:

['i', 'like', 'apple,i', 'like', 'banner ']

print(str.index(','))
print(str.find(','))
ログイン後にコピー

両方の検索結果は次のとおりです:

12

見つからない場合、index はエラーを返し、find は -1 を返します

print(str.count('i'))
ログイン後にコピー

結果は次のとおりです:

4

connt は統計に使用されますターゲット文字列の頻度

print(str.replace(',', ' ').split(' '))
ログイン後にコピー

結果は次のようになります:

['i', 'like', 'apple', 'i', 'like', 'bananer']

ここで replace はカンマをspace 、各単語を取り出すのに十分なスペースを使用して文字列を分割します。

従来の方法に加えて、より強力な文字処理ツール正規表現が正規表現です。

正規表現

正規表現を使用する前に、正規表現の多くのメソッドを理解する必要があります。

次のメソッドの使用法を見てみましょう。まず、match メソッドと search メソッドの違いを理解してください

str = "Cats are smarter than dogs"
pattern=re.compile(r'(.*) are (.*?) .*')
result=re.match(pattern,str)

for i in range(len(result.groups())+1):
 print(result.group(i))
ログイン後にコピー

結果は次のようになります:

猫は犬より賢い

賢い

これパターンの形式 マッチングルールでは、マッチメソッドと検索メソッドの戻り結果は同じです

このとき、パターンを

pattern=re.compile(r'are (.*?) .*')
ログイン後にコピー

に変更するとマッチは何も返されず、検索の戻り結果は次のようになります:

犬よりも賢い
賢い

次に、他のメソッドの使用方法について学びましょう

str = "138-9592-5592 # number"
pattern=re.compile(r'#.*$')
number=re.sub(pattern,'',str)
print(number)
ログイン後にコピー

結果は次のようになります:

138-9592-5592

上記は、後の内容を置き換えて数値を抽出するものです何もない # 番号。

数値のクロスバーをさらに置き換えることもできます

print(re.sub(r'-*','',number))
ログイン後にコピー

結果は次のようになります:

13895925592

また、findメソッドを使用して、見つかった文字列を出力することもできます

str = "138-9592-5592 # number"
pattern=re.compile(r'5')
print(pattern.findall(str))
ログイン後にコピー

結果は次のようになります:

['5', '5', '5']

正規表現の全体的な内容は比較的多く、文字列の一致ルールを十分に理解する必要があります。具体的な一致ルールは次のとおりです。

ベクトル化された文字列関数

分析対象の分散データをクリーンアップする場合、多くの場合、文字列の正規化作業を実行する必要があります。

data = pd.Series({'li': '120@qq.com','wang':'5632@qq.com',
 'chen': '8622@xinlang.com','zhao':np.nan,'sun':'5243@gmail.com'})
print(data)
ログイン後にコピー

結果は次のとおりです:

contains を使用して各データにキーワードが含まれているかどうかを判断するなど、いくつかの統合された方法を通じてデータの予備的な判断を行うことができます

print(data.str.contains('@'))
ログイン後にコピー

結果は次のとおりです:

また、文字列を分割し、必要な文字列を抽出します。結果は次のようになります。


chen [(8622, xinlang, com)]

li [(120, qq, com)]

sun [(5243, gmail, com)]
wang [(5632, qq, com)]
zhao NaN
dtype:
object

この時点で、メールの前にある名前を抽出する必要があります

data = pd.Series({'li': '120@qq.com','wang':'5632@qq.com',
     'chen': '8622@xinlang.com','zhao':np.nan,'sun':'5243@gmail.com'})
pattern=re.compile(r'(\d*)@([a-z]+)\.([a-z]{2,4})')
result=data.str.match(pattern) #这里用fillall的方法也可以result=data.str.findall(pattern)
print(result)
ログイン後にコピー

結果は次のようになります:

またはメールアドレスのドメイン名は必須です

print(result.str.get(0))
ログイン後にコピー

結果は次の通りです

もちろんスライスして抽出することもできますが、抽出されたデータの精度は高くありません

print(result.str.get(1))
ログイン後にコピー

結果は次の通りです

ようやくベクトル化された文字列メソッドを理解しました

概要

[関連する推奨事項]

1.

Python の無料ビデオチュートリアル

2. Python オブジェクト指向のビデオチュートリアル

3

Pythonの基本的な入門チュートリアル

以上がPythonで文字列をクリーニングする例を詳しく解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

PHPおよびPython:コードの例と比較 PHPおよびPython:コードの例と比較 Apr 15, 2025 am 12:07 AM

PHPとPythonには独自の利点と短所があり、選択はプロジェクトのニーズと個人的な好みに依存します。 1.PHPは、大規模なWebアプリケーションの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンスと機械学習の分野を支配しています。

Python vs. JavaScript:コミュニティ、ライブラリ、リソース Python vs. JavaScript:コミュニティ、ライブラリ、リソース Apr 15, 2025 am 12:16 AM

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1)Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2)Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3)どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

Dockerの原則の詳細な説明 Dockerの原則の詳細な説明 Apr 14, 2025 pm 11:57 PM

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム(UnionFS)は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

Visual StudioコードはPythonで使用できますか Visual StudioコードはPythonで使用できますか Apr 15, 2025 pm 08:18 PM

VSコードはPythonの書き込みに使用でき、Pythonアプリケーションを開発するための理想的なツールになる多くの機能を提供できます。ユーザーは以下を可能にします。Python拡張機能をインストールして、コードの完了、構文の強調表示、デバッグなどの関数を取得できます。デバッガーを使用して、コードを段階的に追跡し、エラーを見つけて修正します。バージョンコントロールのためにGitを統合します。コードフォーマットツールを使用して、コードの一貫性を維持します。糸くずツールを使用して、事前に潜在的な問題を発見します。

ターミナルVSCODEでプログラムを実行する方法 ターミナルVSCODEでプログラムを実行する方法 Apr 15, 2025 pm 06:42 PM

VSコードでは、次の手順を通じて端末でプログラムを実行できます。コードを準備し、統合端子を開き、コードディレクトリが端末作業ディレクトリと一致していることを確認します。プログラミング言語(pythonのpython your_file_name.pyなど)に従って実行コマンドを選択して、それが正常に実行されるかどうかを確認し、エラーを解決します。デバッガーを使用して、デバッグ効率を向上させます。

VSCODE拡張機能は悪意がありますか? VSCODE拡張機能は悪意がありますか? Apr 15, 2025 pm 07:57 PM

VSコード拡張機能は、悪意のあるコードの隠れ、脆弱性の活用、合法的な拡張機能としての自慰行為など、悪意のあるリスクを引き起こします。悪意のある拡張機能を識別する方法には、パブリッシャーのチェック、コメントの読み取り、コードのチェック、およびインストールに注意してください。セキュリティ対策には、セキュリティ認識、良好な習慣、定期的な更新、ウイルス対策ソフトウェアも含まれます。

Windows 8でコードを実行できます Windows 8でコードを実行できます Apr 15, 2025 pm 07:24 PM

VSコードはWindows 8で実行できますが、エクスペリエンスは大きくない場合があります。まず、システムが最新のパッチに更新されていることを確認してから、システムアーキテクチャに一致するVSコードインストールパッケージをダウンロードして、プロンプトとしてインストールします。インストール後、一部の拡張機能はWindows 8と互換性があり、代替拡張機能を探すか、仮想マシンで新しいWindowsシステムを使用する必要があることに注意してください。必要な拡張機能をインストールして、適切に動作するかどうかを確認します。 Windows 8ではVSコードは実行可能ですが、開発エクスペリエンスとセキュリティを向上させるために、新しいWindowsシステムにアップグレードすることをお勧めします。

Python:自動化、スクリプト、およびタスク管理 Python:自動化、スクリプト、およびタスク管理 Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1)自動化:OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2)スクリプトの書き込み:Psutilライブラリを使用してシステムリソースを監視します。 3)タスク管理:スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

See all articles