Pythonで文字列をクリーニングする例を詳しく解説
この記事では主にPythonのデータクリーニングと文字列処理の関連情報を紹介しますので、必要な方は参考にしてください
はじめに
データクリーニングは複雑で面倒な(クビ)作業であり、データ全体でもあります。分析 プロセスにおける最も重要なリンク。分析プロジェクトの時間の 80% はデータのクリーニングに費やされるという人もいます。これは奇妙に聞こえますが、実際の作業ではこれが真実です。データ クリーニングの目的は 2 つあります。1 つ目は、クリーニングを通じてデータを利用できるようにすることです。 2 つ目は、データをその後の分析により適したものにすることです。言い換えれば、洗浄する必要がある「ダーティ」データと、同様に洗浄する必要があるクリーンなデータが存在します。
データ分析、特にテキスト分析では、文字処理に多くのエネルギーが必要となるため、文字処理を理解することもデータ分析にとって非常に重要な能力です。
文字列の処理メソッド
まずは、どのような基本的なメソッドがあるかを理解しましょう
まずは、stringのsplitメソッドを理解しましょう
str='i like apple,i like bananer' print(str.split(','))
文字strをカンマで分割した結果:
['i like apple', 'i like bananer']
print(str.split(' '))
スペースに従って分割した結果:
['i', 'like', 'apple,i', 'like', 'banner ']
print(str.index(',')) print(str.find(','))
両方の検索結果は次のとおりです:
12
見つからない場合、index はエラーを返し、find は -1 を返します
print(str.count('i'))
結果は次のとおりです:
4
connt は統計に使用されますターゲット文字列の頻度
print(str.replace(',', ' ').split(' '))
結果は次のようになります:
['i', 'like', 'apple', 'i', 'like', 'bananer']
ここで replace はカンマをspace 、各単語を取り出すのに十分なスペースを使用して文字列を分割します。
従来の方法に加えて、より強力な文字処理ツール正規表現が正規表現です。
正規表現
正規表現を使用する前に、正規表現の多くのメソッドを理解する必要があります。
次のメソッドの使用法を見てみましょう。まず、match メソッドと search メソッドの違いを理解してください
str = "Cats are smarter than dogs" pattern=re.compile(r'(.*) are (.*?) .*') result=re.match(pattern,str) for i in range(len(result.groups())+1): print(result.group(i))
結果は次のようになります:
猫は犬より賢い
猫
賢い
これパターンの形式 マッチングルールでは、マッチメソッドと検索メソッドの戻り結果は同じです
このとき、パターンを
pattern=re.compile(r'are (.*?) .*')
に変更するとマッチは何も返されず、検索の戻り結果は次のようになります:
犬よりも賢い
賢い
次に、他のメソッドの使用方法について学びましょう
str = "138-9592-5592 # number" pattern=re.compile(r'#.*$') number=re.sub(pattern,'',str) print(number)
結果は次のようになります:
138-9592-5592
上記は、後の内容を置き換えて数値を抽出するものです何もない # 番号。
数値のクロスバーをさらに置き換えることもできます
print(re.sub(r'-*','',number))
結果は次のようになります:
13895925592
また、findメソッドを使用して、見つかった文字列を出力することもできます
str = "138-9592-5592 # number" pattern=re.compile(r'5') print(pattern.findall(str))
結果は次のようになります:
['5', '5', '5']
正規表現の全体的な内容は比較的多く、文字列の一致ルールを十分に理解する必要があります。具体的な一致ルールは次のとおりです。
ベクトル化された文字列関数
分析対象の分散データをクリーンアップする場合、多くの場合、文字列の正規化作業を実行する必要があります。
data = pd.Series({'li': '120@qq.com','wang':'5632@qq.com', 'chen': '8622@xinlang.com','zhao':np.nan,'sun':'5243@gmail.com'}) print(data)
結果は次のとおりです:
contains を使用して各データにキーワードが含まれているかどうかを判断するなど、いくつかの統合された方法を通じてデータの予備的な判断を行うことができます
print(data.str.contains('@'))
結果は次のとおりです:
また、文字列を分割し、必要な文字列を抽出します。結果は次のようになります。
chen [(8622, xinlang, com)]
sun [(5243, gmail, com)]
wang [(5632, qq, com)]
zhao NaN
dtype:
object
この時点で、メールの前にある名前を抽出する必要があります
data = pd.Series({'li': '120@qq.com','wang':'5632@qq.com', 'chen': '8622@xinlang.com','zhao':np.nan,'sun':'5243@gmail.com'}) pattern=re.compile(r'(\d*)@([a-z]+)\.([a-z]{2,4})') result=data.str.match(pattern) #这里用fillall的方法也可以result=data.str.findall(pattern) print(result)
結果は次のようになります:
またはメールアドレスのドメイン名は必須です
print(result.str.get(0))
結果は次の通りです
もちろんスライスして抽出することもできますが、抽出されたデータの精度は高くありません
print(result.str.get(1))
結果は次の通りです
ようやくベクトル化された文字列メソッドを理解しました
概要
[関連する推奨事項] 1. 2. Python オブジェクト指向のビデオチュートリアルPythonの基本的な入門チュートリアル以上がPythonで文字列をクリーニングする例を詳しく解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









PHPとPythonには独自の利点と短所があり、選択はプロジェクトのニーズと個人的な好みに依存します。 1.PHPは、大規模なWebアプリケーションの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンスと機械学習の分野を支配しています。

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1)Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2)Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3)どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム(UnionFS)は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

VSコードはPythonの書き込みに使用でき、Pythonアプリケーションを開発するための理想的なツールになる多くの機能を提供できます。ユーザーは以下を可能にします。Python拡張機能をインストールして、コードの完了、構文の強調表示、デバッグなどの関数を取得できます。デバッガーを使用して、コードを段階的に追跡し、エラーを見つけて修正します。バージョンコントロールのためにGitを統合します。コードフォーマットツールを使用して、コードの一貫性を維持します。糸くずツールを使用して、事前に潜在的な問題を発見します。

VSコードでは、次の手順を通じて端末でプログラムを実行できます。コードを準備し、統合端子を開き、コードディレクトリが端末作業ディレクトリと一致していることを確認します。プログラミング言語(pythonのpython your_file_name.pyなど)に従って実行コマンドを選択して、それが正常に実行されるかどうかを確認し、エラーを解決します。デバッガーを使用して、デバッグ効率を向上させます。

VSコード拡張機能は、悪意のあるコードの隠れ、脆弱性の活用、合法的な拡張機能としての自慰行為など、悪意のあるリスクを引き起こします。悪意のある拡張機能を識別する方法には、パブリッシャーのチェック、コメントの読み取り、コードのチェック、およびインストールに注意してください。セキュリティ対策には、セキュリティ認識、良好な習慣、定期的な更新、ウイルス対策ソフトウェアも含まれます。

VSコードはWindows 8で実行できますが、エクスペリエンスは大きくない場合があります。まず、システムが最新のパッチに更新されていることを確認してから、システムアーキテクチャに一致するVSコードインストールパッケージをダウンロードして、プロンプトとしてインストールします。インストール後、一部の拡張機能はWindows 8と互換性があり、代替拡張機能を探すか、仮想マシンで新しいWindowsシステムを使用する必要があることに注意してください。必要な拡張機能をインストールして、適切に動作するかどうかを確認します。 Windows 8ではVSコードは実行可能ですが、開発エクスペリエンスとセキュリティを向上させるために、新しいWindowsシステムにアップグレードすることをお勧めします。

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1)自動化:OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2)スクリプトの書き込み:Psutilライブラリを使用してシステムリソースを監視します。 3)タスク管理:スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。
