XML 処理に Python 正規表現を使用する方法-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

XML 処理に Python 正規表現を使用する方法

王林

Jun 23, 2023 am 09:34 AM

python 正規表現 XML処理

日常のデータ処理シナリオでは、さまざまな形式でのデータ処理にはさまざまな解析方法が必要です。 XML 形式のデータの場合、Python の正規表現を使用して解析できます。この記事では、XML 処理に Python 正規表現を使用する基本的な考え方と方法を紹介します。

XML の基本概要

XML (Extensible Markup Language) は、データを記述するために使用されるマークアップ言語であり、データを表現するための構造化された方法を提供します。 XML の重要な機能は、タグをカスタマイズできることです。これにより、XML 形式のデータがより柔軟になり、さまざまなデータ形式の要件に適応できるようになります。

XML タグは、<tag> のように山括弧 (< >) で囲まれます。各 XML ドキュメントにはルートノードが必要で、ルートノードには任意の数および種類の要素を含めることができます。 XML ドキュメントの基本構造は次のとおりです:

<?xml version="1.0" encoding="UTF-8"?>
<root>
    <element1>
        <subelement1>value1</subelement1>
        <subelement2>value2</subelement2>
    </element1>
    <element2>
        <subelement3>value3</subelement3>
    </element2>
</root>

ログイン後にコピー

Python 正規表現

正規表現は文字列を照合するために使用されるツールであり、その本質は特別な種類の構文。 Python の re モジュールは、正規表現をサポートする関数を提供します。

re.match(pattern, string, flags=0) 文字列の開始位置 (つまり最初の文字) からマッチングを開始し、Match オブジェクトを返します。一致が失敗した場合は、None が返されます。
re.search(pattern, string, flags=0) 文字列内を検索し、最初に一致したオブジェクト (Match オブジェクト) を返します。一致が失敗した場合は、None が返されます。
re.findall(pattern, string, flags=0) 文字列内の一致するすべての部分文字列と一致し、リストを返します。一致するものが見つからない場合は、空のリストが返されます。

正規表現を使用して XML を解析する

XML 処理では、通常、正規表現を使用して XML 内の要素と属性を解析します。具体的な例を次に示します。

import re

xml_text = '''
<root>
    <person name="Tom" age="20">
        <job>Engineer</job>
    </person>
    <person name="Alice" age="25">
        <job>Doctor</job>
    </person>
</root>
'''

# 正则表达式
person_pattern = '<person.+?name="(.+?)".+?age="(.+?)".*?>.+?<job>(.*?)</job>.+?</person>'

# 使用search函数匹配字符串
result = re.findall(person_pattern, xml_text, re.S)
for person in result:
    name, age, job = person
    print("name:{}, age:{}, job:{}".format(name, age, job))

ログイン後にコピー

上記のコードでは、最初に XML 形式のテキストが定義され、次に person 要素とその属性に一致する正規表現が定義されます。 re.findall マッチング関数を使用すると、すべてのマッチング結果が得られます。

この例では、より複雑な正規表現を使用します。正規表現内:

. ? は任意の文字に一致し、他の人の要素が含まれないように非貪欲一致します。
.?? は疑問符と一致します。
.*? 冗長なタグが含まれないように、任意の文字と非貪欲一致で一致します。
(. ?) は、解析された属性またはテキスト情報を表すキャプチャグループを定義します。
s は任意の空白文字と一致します。
</person> 終了タグと一致します。

このようにして、XML データ内の指定された要素と属性を簡単に解析できます。

注意事項

XML 処理に Python 正規表現を使用する場合は、次の点に注意する必要があります。貪欲なパターンマッチングは、冗長な要素とタグを解析してエラーを引き起こすことを避けるために実行されます。

Python の正規表現は文字列に相当するため、XML テキストを文字列に変換して操作する必要があります。
複雑な XML ファイルの場合は、lxml などの専門的な XML 処理ツールを使用することをお勧めします。
概要

Python 正規表現は、XML 形式のデータを含むさまざまな形式のデータを解析するために使用できる強力なテキスト処理ツールです。正規表現を使用すると、XML ファイル内の要素と属性を簡単に解析できます。ただし、XML 形式は複雑であるため、一致エラーを避けるために、処理中に慎重に検討して分析する必要があります。

以上がXML 処理に Python 正規表現を使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。