XML 処理に Python 正規表現を使用する方法
日常のデータ処理シナリオでは、さまざまな形式でのデータ処理にはさまざまな解析方法が必要です。 XML 形式のデータの場合、Python の正規表現を使用して解析できます。この記事では、XML 処理に Python 正規表現を使用する基本的な考え方と方法を紹介します。
- XML の基本概要
XML (Extensible Markup Language) は、データを記述するために使用されるマークアップ言語であり、データを表現するための構造化された方法を提供します。 XML の重要な機能は、タグをカスタマイズできることです。これにより、XML 形式のデータがより柔軟になり、さまざまなデータ形式の要件に適応できるようになります。
XML タグは、<tag>
のように山括弧 (< >) で囲まれます。各 XML ドキュメントにはルート ノードが必要で、ルート ノードには任意の数および種類の要素を含めることができます。 XML ドキュメントの基本構造は次のとおりです:
<?xml version="1.0" encoding="UTF-8"?> <root> <element1> <subelement1>value1</subelement1> <subelement2>value2</subelement2> </element1> <element2> <subelement3>value3</subelement3> </element2> </root>
- Python 正規表現
正規表現は文字列を照合するために使用されるツールであり、その本質は特別な種類の構文。 Python の re モジュールは、正規表現をサポートする関数を提供します。
- re.match(pattern, string, flags=0) 文字列の開始位置 (つまり最初の文字) からマッチングを開始し、Match オブジェクトを返します。一致が失敗した場合は、None が返されます。
- re.search(pattern, string, flags=0) 文字列内を検索し、最初に一致したオブジェクト (Match オブジェクト) を返します。一致が失敗した場合は、None が返されます。
- re.findall(pattern, string, flags=0) 文字列内の一致するすべての部分文字列と一致し、リストを返します。一致するものが見つからない場合は、空のリストが返されます。
- 正規表現を使用して XML を解析する
XML 処理では、通常、正規表現を使用して XML 内の要素と属性を解析します。具体的な例を次に示します。
import re xml_text = ''' <root> <person name="Tom" age="20"> <job>Engineer</job> </person> <person name="Alice" age="25"> <job>Doctor</job> </person> </root> ''' # 正则表达式 person_pattern = '<person.+?name="(.+?)".+?age="(.+?)".*?>.+?<job>(.*?)</job>.+?</person>' # 使用search函数匹配字符串 result = re.findall(person_pattern, xml_text, re.S) for person in result: name, age, job = person print("name:{}, age:{}, job:{}".format(name, age, job))
上記のコードでは、最初に XML 形式のテキストが定義され、次に person 要素とその属性に一致する正規表現が定義されます。 re.findall マッチング関数を使用すると、すべてのマッチング結果が得られます。
この例では、より複雑な正規表現を使用します。正規表現内:
-
. ?
は任意の文字に一致し、他の人の要素が含まれないように非貪欲一致します。 -
.??
は疑問符と一致します。 -
.*?
冗長なタグが含まれないように、任意の文字と非貪欲一致で一致します。 -
(. ?)
は、解析された属性またはテキスト情報を表すキャプチャ グループを定義します。 -
s
は任意の空白文字と一致します。 -
</person>
終了タグと一致します。
このようにして、XML データ内の指定された要素と属性を簡単に解析できます。
- 注意事項
XML 処理に Python 正規表現を使用する場合は、次の点に注意する必要があります。貪欲なパターン マッチングは、冗長な要素とタグを解析してエラーを引き起こすことを避けるために実行されます。
- XML は入れ子にできるため、異なるノードのコンテンツが同じノードのコンテンツに誤って解析されることを避けるために、一致範囲を設定する必要があります。
- Python の正規表現は文字列に相当するため、XML テキストを文字列に変換して操作する必要があります。
- 複雑な XML ファイルの場合は、lxml などの専門的な XML 処理ツールを使用することをお勧めします。
- 概要
- Python 正規表現は、XML 形式のデータを含むさまざまな形式のデータを解析するために使用できる強力なテキスト処理ツールです。正規表現を使用すると、XML ファイル内の要素と属性を簡単に解析できます。ただし、XML 形式は複雑であるため、一致エラーを避けるために、処理中に慎重に検討して分析する必要があります。
以上がXML 処理に Python 正規表現を使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Linux Systemsに付属するPythonインタープリターを削除する問題に関して、多くのLinuxディストリビューションは、インストール時にPythonインタープリターをプリインストールし、パッケージマネージャーを使用しません...

Pythonプログラミングでカスタムデコレーターを使用する場合、Pylance Type検出問題解決策デコレーターは、行を追加するために使用できる強力なツールです...

Pythonasyncioについて...

Python 3.6のピクルスファイルの読み込みエラー:modulenotfounderror:nomodulenamed ...

Pythonの非同期ライブラリ間の互換性の問題Python、非同期プログラミングは、高い並行性とI/Oのプロセスになりました...

Python 3.6のピクルスファイルのロードレポートエラー:modulenotFounderror:nomodulenamed ...

子どものプロセスを使用して親プロセスを殺すときに実行され続ける子プロセスの問題と解決策。 Pythonプログラミングでは、信号を通じて親のプロセスを殺した後、子のプロセスはまだ...
