Python では、正規表現 (regex) を使用して、文字列と一致させてデータを抽出する強力な方法が提供されます。一般的な使用例の 1 つは、大きなテキスト内の特定の単語やパターンを識別して取得することです。
文字列の例を考えてみましょう:
someline abc someother line name my_user_name is valid some more lines
私たちの目標は、正規表現。
最初のステップは、一致する正規表現パターンを作成することです。希望のパターン。この場合、「name」で始まり、その後に任意の文字列が続き、「is valid」で終わる行と一致させたいと考えています。次の正規表現を使用できます:
"name .* is valid"
ここで、「name」はリテラルの単語「name」に一致し、「.*」は任意の文字シーケンス (スペースを含む) に一致し、「is valid」は文字列に一致します。リテラル文字列。以下に示すように、re.compile() を使用してパターンをコンパイルします。
import re s = """ someline abc someother line name my_user_name is valid some more lines """ p = re.compile("name .* is valid")
これで、コンパイルされたパターンを使用して文字列内の一致を検索できます。 p.match(s) メソッドは、最初に見つかった一致を表すオブジェクトを返します。
一致オブジェクトを取得したら、group( ) 方法。括弧内の数字は、取得するキャプチャ グループを指定します。この例では、group(1) で示されるキャプチャ グループが 1 つだけあります。
match = p.match(s) # finds the first match print(match.group(1)) # prints "my_user_name"
正規表現と group() メソッドを使用することで、より大きなキーワードから特定の単語やパターンを効率的に抽出できます。テキスト データセット。
以上がPython で正規表現を使用してテキストから特定の単語を抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。