Python の正規表現

Oct 19, 2016 pm 04:37 PM
Pythonの基本

正規表現は、複雑な文字列を検索、置換、解析するための強力で標準的な方法です。Python のすべての正規表現は re モジュールの下にあります。

1 よく使用される一致

^ 文字列の先頭に一致

$ は文字列の末尾に一致

b は単語の境界に一致

d は任意の数値に一致

D は任意の非数値文字に一致

x? は 1 つに一致します オプションの x (x 文字に 1 回または 0 回一致します)

x* は x に 0 回以上一致します

x+ は x に 1 回以上一致します

x{n,m} は少なくとも n 回、最大で m 回一致しますx

(a|b|c) は、a に一致するか、b に一致するか、c に一致します

(x) は一般にメモリ グループを表し、re.search によって返されたオブジェクトの groups() 関数を使用できます。その値を取得する関数

2 汎用

#-------------------------------------------------------------------------------
# coding:        utf-8
# Purpose:正则表达式
#
# Author:      zdk
#
# Created:     26/02/2013
# Copyright:   (c) zdk 2013
#-------------------------------------------------------------------------------
  
import re
if __name__ == '__main__':
    addr = "100 BROAD ROAD APT.3"
    print(re.sub("ROAD","RD",addr)) # 100 BRD RD APT.3
    print(re.sub(r"\bROAD\b","RD",addr)) # 100 BROAD RD APT.3
    pattern = ".*B.*(ROAD)?"
    print(re.search(pattern,"ROAD")) #None
    print(re.search(pattern,"B")) #<_sre.SRE_Match object at 0x0230F020><span style="background-color:#FAFAFA;font-family:Monaco, &#39;DejaVu Sans Mono&#39;, &#39;Bitstream Vera Sans Mono&#39;, Consolas, &#39;Courier New&#39;, monospace;font-size:1em;line-height:1.5;"> </span>
ログイン後にコピー

(1) re.sub("ROAD","RD",addr) re.sub関数を使用して文字列addrを検索し、"RD"を使用して条件を満たす式 "ROAD" "Replace

(2) re.sub(r"bROADb","RD",addr), "b" は、Python では "単語の境界" を意味します。これは、文字 "" をエスケープする必要があるためです。 string、これは非常に面倒になる可能性があるため、Python は文字列内のすべての文字がエスケープされていないことを示すために r をプレフィックスとして付けます。

(3) re.search(pattern, "ROAD") この関数には 2 つのパラメータがあり、1 つは正規表現、もう 1 つは文字列です。一致するオブジェクトが見つからない場合、この一致オブジェクトは None を返します。

3 緩やかな正規表現

上記はすべて「コンパクト」タイプの表現であり、今は表現の意味が明確であっても、数か月後に覚えているという保証はありません。したがって、Python では、いわゆる緩い正規表現を使用してインライン ドキュメントのニーズを満たすことができます。次の 2 つの点で、一般的な表現との主な違いがあります。空白文字は無視されます。スペース、タブ、およびキャリッジ リターンは、それ自体と一致しません (緩やかな正規表現内のスペースと一致させたい場合は、その前にバックスラッシュを追加してエスケープする必要はありません)

注は無視してください。通常の Python コードと同様に、コメントは # 記号で始まり、行の終わりで終わります。

#松散带有内联注释的正则表达式
    pattern = """
    ^   # begin of string
    M{0,3} # 0 to 3 M
    (CM|CD|D?C{0,3}) #CM or CD or D or D 0 to 3 C
    $   #end of string
    """
    print(re.search(pattern,"MCM",re.VERBOSE)) #<_sre.SRE_Match object at 0x021BAF60>
    print(re.search(pattern,"M99",re.VERBOSE)) #None
ログイン後にコピー

(1) 緩い正規表現を使用する場合、最も重要なことは次のとおりです。追加のパラメータ re.VERBOSE を渡す必要があります。これは re モジュールの定数であり、一致する正規表現が緩い正規表現であることを示します。 。パターンのスペースとコメントは無視されますが、同時に読みやすくなります。

4 ケーススタディ: 電話番号の解析

は次の電話番号と一致する必要があります:

800-555-1212

800 555 1212

800.555.1212

(800)555-1212

1-8 00- 555 -1212

800-555-1212-1234

800-555-1212x1234

800-555-1212 内線1234

仕事1-(800) 555,1212 #1234

フォーマットの比較 必要なことはたくさんあります市外局番は 800、外線番号は 555、電話番号の他の桁は 1212 です。内線番号をお持ちの方は、内線番号が 1234 であることを知っておく必要があります

phonePattern = re.compile(r&#39;&#39;&#39;
    # don&#39;t match beginging of string
(\d{3}) # 3 digits
\D*     #any number of non-digits
(\d{3}) # 3 digits
\D*     #any number of non-digits
(\d{4}) # 4 digits
\D*     #any number of non-digits
(\d*)   #any number of digits
&#39;&#39;&#39;,re.VERBOSE)
print(phonePattern.search(&#39;work 1-(800)555.1212 #1234&#39;).groups()) #(&#39;800&#39;, &#39;555&#39;, &#39;1212&#39;, &#39;1234&#39;)
ログイン後にコピー

print(phonePattern.search(' work 1-(800)555.1212 # 1234').groups()) #('800', '555', '1212', '1234')

(1) 上記の緩やかな正規表現、最初に 3 桁に一致市外局番(必ずしも最初からである必要はありません。文字で始まるため、^ は使用できません)、次に任意の数の非数字文字と一致し、次に 3 つの数字のトランク番号と一致し、次に任意の数の非数字文字と一致し、次に一致します。 4 つの数字を入力し、任意の数の数字以外の文字と一致し、次に任意の数の桁の内線番号と一致し、グループ機能を使用してそれらをグループ化し、正しい電話番号を取得します。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Pythonを使用してテキストファイルのZIPF配布を見つける方法 Pythonを使用してテキストファイルのZIPF配布を見つける方法 Mar 05, 2025 am 09:58 AM

このチュートリアルでは、Pythonを使用してZIPFの法則の統計的概念を処理する方法を示し、法律の処理時にPythonの読み取りおよび並べ替えの効率性を示します。 ZIPF分布という用語が何を意味するのか疑問に思うかもしれません。この用語を理解するには、まずZIPFの法律を定義する必要があります。心配しないでください、私は指示を簡素化しようとします。 ZIPFの法則 ZIPFの法則は単に意味します。大きな自然言語のコーパスでは、最も頻繁に発生する単語は、2番目の頻繁な単語のほぼ2倍の頻度で表示されます。 例を見てみましょう。アメリカ英語の茶色のコーパスを見ると、最も頻繁な言葉は「thであることに気付くでしょう。

Pythonでの画像フィルタリング Pythonでの画像フィルタリング Mar 03, 2025 am 09:44 AM

ノイズの多い画像を扱うことは、特に携帯電話や低解像度のカメラの写真でよくある問題です。 このチュートリアルでは、OpenCVを使用してPythonの画像フィルタリング手法を調査して、この問題に取り組みます。 画像フィルタリング:強力なツール 画像フィルター

HTMLを解析するために美しいスープを使用するにはどうすればよいですか? HTMLを解析するために美しいスープを使用するにはどうすればよいですか? Mar 10, 2025 pm 06:54 PM

この記事では、Pythonライブラリである美しいスープを使用してHTMLを解析する方法について説明します。 find()、find_all()、select()、およびget_text()などの一般的な方法は、データ抽出、多様なHTML構造とエラーの処理、および代替案(SEL

TensorflowまたはPytorchで深い学習を実行する方法は? TensorflowまたはPytorchで深い学習を実行する方法は? Mar 10, 2025 pm 06:52 PM

この記事では、深い学習のためにTensorflowとPytorchを比較しています。 関連する手順、データの準備、モデルの構築、トレーニング、評価、展開について詳しく説明しています。 特に計算グラップに関して、フレームワーク間の重要な違い

Pythonの並列および同時プログラミングの紹介 Pythonの並列および同時プログラミングの紹介 Mar 03, 2025 am 10:32 AM

データサイエンスと処理のお気に入りであるPythonは、高性能コンピューティングのための豊富なエコシステムを提供します。ただし、Pythonの並列プログラミングは、独自の課題を提示します。このチュートリアルでは、これらの課題を調査し、グローバルな承認に焦点を当てています

Pythonで独自のデータ構造を実装する方法 Pythonで独自のデータ構造を実装する方法 Mar 03, 2025 am 09:28 AM

このチュートリアルでは、Python 3にカスタムパイプラインデータ構造を作成し、機能を強化するためにクラスとオペレーターのオーバーロードを活用していることを示しています。 パイプラインの柔軟性は、一連の機能をデータセットに適用する能力にあります。

Pythonオブジェクトのシリアル化と脱介入:パート1 Pythonオブジェクトのシリアル化と脱介入:パート1 Mar 08, 2025 am 09:39 AM

Pythonオブジェクトのシリアル化と脱介入は、非自明のプログラムの重要な側面です。 Pythonファイルに何かを保存すると、構成ファイルを読み取る場合、またはHTTPリクエストに応答する場合、オブジェクトシリアル化と脱滑り化を行います。 ある意味では、シリアル化と脱派化は、世界で最も退屈なものです。これらすべての形式とプロトコルを気にするのは誰ですか? Pythonオブジェクトを維持またはストリーミングし、後で完全に取得したいと考えています。 これは、概念レベルで世界を見るのに最適な方法です。ただし、実用的なレベルでは、選択したシリアル化スキーム、形式、またはプロトコルは、プログラムの速度、セキュリティ、メンテナンスの自由、およびその他の側面を決定する場合があります。

Pythonの数学モジュール:統計 Pythonの数学モジュール:統計 Mar 09, 2025 am 11:40 AM

Pythonの統計モジュールは、強力なデータ統計分析機能を提供して、生物統計やビジネス分析などのデータの全体的な特性を迅速に理解できるようにします。データポイントを1つずつ見る代わりに、平均や分散などの統計を見て、無視される可能性のある元のデータの傾向と機能を発見し、大きなデータセットをより簡単かつ効果的に比較してください。 このチュートリアルでは、平均を計算し、データセットの分散の程度を測定する方法を説明します。特に明記しない限り、このモジュールのすべての関数は、単に平均を合計するのではなく、平均()関数の計算をサポートします。 浮動小数点数も使用できます。 ランダムをインポートします インポート統計 fractiから

See all articles