如何使用Python正規表示式進行XML處理-Python教學-PHP中文網

如何使用Python正規表示式進行XML處理

王林

發布： 2023-06-23 09:34:44

原創

1759 人瀏覽過

在日常的資料處理場景中，不同格式的資料處理需要不同的解析方式。對於XML格式的數據，我們可以使用Python中的正規表示式進行解析。本文將介紹使用Python正規表示式進行XML處理的基本想法與方法。

XML基礎介紹

XML（Extensible Markup Language）是一種用於描述資料的標記語言，它提供了一種結構化的方法來表示數據。 XML的一個重要特點是可以自訂標籤（tag），這使得XML格式資料更加靈活，可以適應各種資料格式要求。

XML的標籤使用尖括號（< >）進行包裹，例如 <tag>。每個XML文件必須有一個根節點（root node），在根節點下可以包含任意數量和類型的元素（element）。一個XML文件的基本結構如下所示：

<?xml version="1.0" encoding="UTF-8"?>
<root>
    <element1>
        <subelement1>value1</subelement1>
        <subelement2>value2</subelement2>
    </element1>
    <element2>
        <subelement3>value3</subelement3>
    </element2>
</root>

登入後複製

Python正規表示式

正規表示式是用來匹配字串的工具，其本質是一種特殊的語法。 Python中的re模組提供了支援正規表示式的函數。

re.match(pattern, string, flags=0) 從字串的起始位置（即第一個字元）開始匹配，傳回匹配物件（Match object）。如果符合失敗，則傳回None。
re.search(pattern, string, flags=0) 在字串中搜索，並傳回第一個符合物件（Match object）。如果符合失敗，則傳回None。
re.findall(pattern, string, flags=0) 在字串中符合所有符合條件的子字串，並傳回一個清單。如果沒有匹配到，返回空列表。

使用正規表示式解析XML

在XML處理中，我們通常會使用正規表示式解析XML中的元素和屬性。以下是一個具體的例子：

import re

xml_text = '''
<root>
    <person name="Tom" age="20">
        <job>Engineer</job>
    </person>
    <person name="Alice" age="25">
        <job>Doctor</job>
    </person>
</root>
'''

# 正则表达式
person_pattern = '<person.+?name="(.+?)".+?age="(.+?)".*?>.+?<job>(.*?)</job>.+?</person>'

# 使用search函数匹配字符串
result = re.findall(person_pattern, xml_text, re.S)
for person in result:
    name, age, job = person
    print("name:{}, age:{}, job:{}".format(name, age, job))

登入後複製

在上段程式碼中，首先定義了一個XML格式的文本，然後定義了一個正規表示式來匹配其中的person元素和其屬性。透過使用re.findall匹配函數，得到所有匹配的結果。

在這個範例中，我們使用了一個較為複雜的正規表示式。正規表示式中：