Rumah pembangunan bahagian belakang Tutorial Python Cara menggunakan ungkapan biasa Python untuk pemprosesan XML

Cara menggunakan ungkapan biasa Python untuk pemprosesan XML

Jun 23, 2023 am 09:34 AM
python ungkapan biasa pemprosesan xml

Dalam senario pemprosesan data harian, pemprosesan data dalam format yang berbeza memerlukan kaedah penghuraian yang berbeza. Untuk data dalam format XML, kita boleh menggunakan ungkapan biasa dalam Python untuk menghurai. Artikel ini akan memperkenalkan idea asas dan kaedah menggunakan ungkapan biasa Python untuk pemprosesan XML.

  1. Pengenalan asas XML

XML (Extensible Markup Language) ialah bahasa penanda yang digunakan untuk menerangkan data. Ciri penting XML ialah anda boleh menyesuaikan teg, yang menjadikan data format XML lebih fleksibel dan boleh menyesuaikan diri dengan pelbagai keperluan format data.

Teg XML dibalut dengan kurungan sudut (< >), seperti <tag>. Setiap dokumen XML mesti mempunyai nod akar, yang boleh mengandungi sebarang nombor dan jenis elemen. Struktur asas dokumen XML adalah seperti berikut:

<?xml version="1.0" encoding="UTF-8"?>
<root>
    <element1>
        <subelement1>value1</subelement1>
        <subelement2>value2</subelement2>
    </element1>
    <element2>
        <subelement3>value3</subelement3>
    </element2>
</root>
Salin selepas log masuk
  1. Ekspresi biasa Python

Ekspresi biasa ialah alat yang digunakan untuk memadankan rentetan sintaks. Modul semula dalam Python menyediakan fungsi yang menyokong ungkapan biasa.

  • re.match(corak, rentetan, bendera=0) Mula memadankan dari kedudukan permulaan rentetan (iaitu aksara pertama) dan mengembalikan objek Padanan. Jika perlawanan gagal, Tiada dikembalikan.
  • re.search(corak, rentetan, bendera=0) Cari dalam rentetan dan kembalikan objek Padanan yang pertama. Jika perlawanan gagal, Tiada dikembalikan.
  • re.findall(corak, rentetan, bendera=0) Memadankan semua subrentetan yang sepadan dalam rentetan dan mengembalikan senarai. Jika tiada padanan ditemui, senarai kosong dikembalikan.
  1. Gunakan ungkapan biasa untuk menghuraikan XML

Dalam pemprosesan XML, kami biasanya menggunakan ungkapan biasa untuk menghuraikan elemen dan atribut dalam XML. Berikut ialah contoh khusus:

import re

xml_text = '''
<root>
    <person name="Tom" age="20">
        <job>Engineer</job>
    </person>
    <person name="Alice" age="25">
        <job>Doctor</job>
    </person>
</root>
'''

# 正则表达式
person_pattern = '<person.+?name="(.+?)".+?age="(.+?)".*?>.+?<job>(.*?)</job>.+?</person>'

# 使用search函数匹配字符串
result = re.findall(person_pattern, xml_text, re.S)
for person in result:
    name, age, job = person
    print("name:{}, age:{}, job:{}".format(name, age, job))
Salin selepas log masuk

Dalam kod di atas, teks format XML pertama kali ditakrifkan, dan kemudian ungkapan biasa ditakrifkan untuk memadankan elemen orang dan atributnya. Dengan menggunakan fungsi padanan re.findall, semua keputusan padanan diperolehi.

Dalam contoh ini, kami menggunakan ungkapan biasa yang lebih kompleks. Dalam ungkapan biasa:

  • .+? sepadan dengan mana-mana watak dan tidak tamak padanan untuk menghalang unsur orang lain daripada disertakan.
  • .?? sepadan dengan tanda tanya.
  • .*? sepadan dengan mana-mana watak, padanan tidak tamak untuk mengelakkan teg berlebihan.
  • (.+?) mentakrifkan kumpulan penangkapan yang mewakili atribut yang dihuraikan atau maklumat teks.
  • s sepadan dengan mana-mana aksara ruang putih.
  • </person> sepadan dengan teg penutup.

Dengan cara ini, kita boleh menghuraikan elemen dan atribut yang ditentukan dalam data XML dengan mudah.

  1. Nota

Apabila menggunakan ungkapan biasa Python untuk pemprosesan XML, kita perlu memberi perhatian kepada perkara berikut:

  • Gunakan bukan- tamak Padanan corak dilakukan untuk mengelakkan menghuraikan elemen dan teg yang berlebihan dan menyebabkan ralat.
  • Memandangkan XML boleh disarangkan, julat padanan perlu ditetapkan untuk mengelakkan penghuraian kandungan nod berbeza ke dalam kandungan nod yang sama secara salah.
  • Ungkapan biasa Python sepadan dengan rentetan, jadi teks XML perlu ditukar menjadi rentetan untuk operasi.
  • Untuk fail XML yang kompleks, adalah disyorkan untuk menggunakan alat pemprosesan XML profesional, seperti lxml.
  1. Ringkasan

Ekspresi biasa Python ialah alat pemprosesan teks yang berkuasa yang boleh digunakan untuk menghuraikan data dalam pelbagai format, termasuk data format XML. Dengan menggunakan ungkapan biasa, kami boleh menghuraikan elemen dan atribut dengan mudah dalam fail XML. Walau bagaimanapun, disebabkan kerumitan format XML, kita perlu berfikir dengan teliti dan menganalisisnya semasa pemprosesan untuk mengelakkan ralat padanan.

Atas ialah kandungan terperinci Cara menggunakan ungkapan biasa Python untuk pemprosesan XML. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Bolehkah penterjemah Python dipadam dalam sistem Linux? Bolehkah penterjemah Python dipadam dalam sistem Linux? Apr 02, 2025 am 07:00 AM

Mengenai masalah menghapuskan penterjemah python yang dilengkapi dengan sistem Linux, banyak pengagihan Linux akan memasang semula penterjemah python apabila dipasang, dan ia tidak menggunakan pengurus pakej ...

Bagaimana menyelesaikan masalah pengesanan jenis pylance penghias tersuai di Python? Bagaimana menyelesaikan masalah pengesanan jenis pylance penghias tersuai di Python? Apr 02, 2025 am 06:42 AM

Penyelesaian Masalah Pengesanan Jenis Pylance Apabila menggunakan penghias tersuai dalam pengaturcaraan python, penghias adalah alat yang berkuasa yang boleh digunakan untuk menambah baris ...

Python 3.6 Memuatkan Ralat Fail Pickle ModulenotFoundError: Apa yang perlu saya lakukan jika saya memuatkan fail acar '__builtin__'? Python 3.6 Memuatkan Ralat Fail Pickle ModulenotFoundError: Apa yang perlu saya lakukan jika saya memuatkan fail acar '__builtin__'? Apr 02, 2025 am 06:27 AM

Memuatkan Fail Pickle di Python 3.6 Kesalahan Alam Sekitar: ModulenotFoundError: Nomodulenamed ...

Adakah Fastapi dan AIOHTTP berkongsi gelung acara global yang sama? Adakah Fastapi dan AIOHTTP berkongsi gelung acara global yang sama? Apr 02, 2025 am 06:12 AM

Isu keserasian antara perpustakaan asynchronous Python di Python, pengaturcaraan tak segerak telah menjadi proses kesesuaian tinggi dan I/O ...

Apa yang perlu saya lakukan jika modul '__builtin__' tidak dijumpai apabila memuatkan fail acar di Python 3.6? Apa yang perlu saya lakukan jika modul '__builtin__' tidak dijumpai apabila memuatkan fail acar di Python 3.6? Apr 02, 2025 am 07:12 AM

Memuatkan Fail Pickle di Python 3.6 Kesalahan Laporan Alam Sekitar: ModulenotFoundError: Nomodulenamed ...

Bagaimana untuk memastikan bahawa proses kanak -kanak juga tamat selepas membunuh proses induk melalui isyarat di Python? Bagaimana untuk memastikan bahawa proses kanak -kanak juga tamat selepas membunuh proses induk melalui isyarat di Python? Apr 02, 2025 am 06:39 AM

Masalah dan penyelesaian proses kanak -kanak terus berjalan apabila menggunakan isyarat untuk membunuh proses induk. Dalam pengaturcaraan Python, selepas membunuh proses induk melalui isyarat, proses anak masih ...

See all articles