ホームページ バックエンド開発 Python チュートリアル XML 処理に Python 正規表現を使用する方法

XML 処理に Python 正規表現を使用する方法

Jun 23, 2023 am 09:34 AM
python 正規表現 XML処理

日常のデータ処理シナリオでは、さまざまな形式でのデータ処理にはさまざまな解析方法が必要です。 XML 形式のデータの場合、Python の正規表現を使用して解析できます。この記事では、XML 処理に Python 正規表現を使用する基本的な考え方と方法を紹介します。

  1. XML の基本概要

XML (Extensible Markup Language) は、データを記述するために使用されるマークアップ言語であり、データを表現するための構造化された方法を提供します。 XML の重要な機能は、タグをカスタマイズできることです。これにより、XML 形式のデータがより柔軟になり、さまざまなデータ形式の要件に適応できるようになります。

XML タグは、<tag> のように山括弧 (< >) で囲まれます。各 XML ドキュメントにはルート ノードが必要で、ルート ノードには任意の数および種類の要素を含めることができます。 XML ドキュメントの基本構造は次のとおりです:

<?xml version="1.0" encoding="UTF-8"?>
<root>
    <element1>
        <subelement1>value1</subelement1>
        <subelement2>value2</subelement2>
    </element1>
    <element2>
        <subelement3>value3</subelement3>
    </element2>
</root>
ログイン後にコピー
  1. Python 正規表現

正規表現は文字列を照合するために使用されるツールであり、その本質は特別な種類の構文。 Python の re モジュールは、正規表現をサポートする関数を提供します。

  • re.match(pattern, string, flags=0) 文字列の開始位置 (つまり最初の文字) からマッチングを開始し、Match オブジェクトを返します。一致が失敗した場合は、None が返されます。
  • re.search(pattern, string, flags=0) 文字列内を検索し、最初に一致したオブジェクト (Match オブジェクト) を返します。一致が失敗した場合は、None が返されます。
  • re.findall(pattern, string, flags=0) 文字列内の一致するすべての部分文字列と一致し、リストを返します。一致するものが見つからない場合は、空のリストが返されます。
  1. 正規表現を使用して XML を解析する

XML 処理では、通常、正規表現を使用して XML 内の要素と属性を解析します。具体的な例を次に示します。

import re

xml_text = '''
<root>
    <person name="Tom" age="20">
        <job>Engineer</job>
    </person>
    <person name="Alice" age="25">
        <job>Doctor</job>
    </person>
</root>
'''

# 正则表达式
person_pattern = '<person.+?name="(.+?)".+?age="(.+?)".*?>.+?<job>(.*?)</job>.+?</person>'

# 使用search函数匹配字符串
result = re.findall(person_pattern, xml_text, re.S)
for person in result:
    name, age, job = person
    print("name:{}, age:{}, job:{}".format(name, age, job))
ログイン後にコピー

上記のコードでは、最初に XML 形式のテキストが定義され、次に person 要素とその属性に一致する正規表現が定義されます。 re.findall マッチング関数を使用すると、すべてのマッチング結果が得られます。

この例では、より複雑な正規表現を使用します。正規表現内:

  • . ? は任意の文字に一致し、他の人の要素が含まれないように非貪欲一致します。
  • .?? は疑問符と一致します。
  • .*? 冗長なタグが含まれないように、任意の文字と非貪欲一致で一致します。
  • (. ?) は、解析された属性またはテキスト情報を表すキャプチャ グループを定義します。
  • s は任意の空白文字と一致します。
  • </person> 終了タグと一致します。

このようにして、XML データ内の指定された要素と属性を簡単に解析できます。

  1. 注意事項

XML 処理に Python 正規表現を使用する場合は、次の点に注意する必要があります。貪欲なパターン マッチングは、冗長な要素とタグを解析してエラーを引き起こすことを避けるために実行されます。

    XML は入れ子にできるため、異なるノードのコンテンツが同じノードのコンテンツに誤って解析されることを避けるために、一致範囲を設定する必要があります。
  • Python の正規表現は文字列に相当するため、XML テキストを文字列に変換して操作する必要があります。
  • 複雑な XML ファイルの場合は、lxml などの専門的な XML 処理ツールを使用することをお勧めします。
  • 概要
  1. Python 正規表現は、XML 形式のデータを含むさまざまな形式のデータを解析するために使用できる強力なテキスト処理ツールです。正規表現を使用すると、XML ファイル内の要素と属性を簡単に解析できます。ただし、XML 形式は複雑であるため、一致エラーを避けるために、処理中に慎重に検討して分析する必要があります。

以上がXML 処理に Python 正規表現を使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

PythonインタープリターはLinuxシステムで削除できますか? PythonインタープリターはLinuxシステムで削除できますか? Apr 02, 2025 am 07:00 AM

Linux Systemsに付属するPythonインタープリターを削除する問題に関して、多くのLinuxディストリビューションは、インストール時にPythonインタープリターをプリインストールし、パッケージマネージャーを使用しません...

Pythonでのカスタムデコレータのパイランスタイプ検出の問題を解決する方法は? Pythonでのカスタムデコレータのパイランスタイプ検出の問題を解決する方法は? Apr 02, 2025 am 06:42 AM

Pythonプログラミングでカスタムデコレーターを使用する場合、Pylance Type検出問題解決策デコレーターは、行を追加するために使用できる強力なツールです...

Python 3.6のロードピクルスファイルエラーmodulenotfounderror:ピクルスファイル「__builtin__」をロードした場合はどうすればよいですか? Python 3.6のロードピクルスファイルエラーmodulenotfounderror:ピクルスファイル「__builtin__」をロードした場合はどうすればよいですか? Apr 02, 2025 am 06:27 AM

Python 3.6のピクルスファイルの読み込みエラー:modulenotfounderror:nomodulenamed ...

FastapiとAIOHTTPは同じグローバルイベントループを共有していますか? FastapiとAIOHTTPは同じグローバルイベントループを共有していますか? Apr 02, 2025 am 06:12 AM

Pythonの非同期ライブラリ間の互換性の問題Python、非同期プログラミングは、高い並行性とI/Oのプロセスになりました...

Python 3.6にピクルスファイルをロードするときに「__Builtin__」モジュールが見つからない場合はどうすればよいですか? Python 3.6にピクルスファイルをロードするときに「__Builtin__」モジュールが見つからない場合はどうすればよいですか? Apr 02, 2025 am 07:12 AM

Python 3.6のピクルスファイルのロードレポートエラー:modulenotFounderror:nomodulenamed ...

Pythonの信号を介して親プロセスを殺した後に子プロセスも終了することを確認する方法は? Pythonの信号を介して親プロセスを殺した後に子プロセスも終了することを確認する方法は? Apr 02, 2025 am 06:39 AM

子どものプロセスを使用して親プロセスを殺すときに実行され続ける子プロセスの問題と解決策。 Pythonプログラミングでは、信号を通じて親のプロセスを殺した後、子のプロセスはまだ...

See all articles