Dalam senario pemprosesan data harian, pemprosesan data dalam format yang berbeza memerlukan kaedah penghuraian yang berbeza. Untuk data dalam format XML, kita boleh menggunakan ungkapan biasa dalam Python untuk menghurai. Artikel ini akan memperkenalkan idea asas dan kaedah menggunakan ungkapan biasa Python untuk pemprosesan XML.
XML (Extensible Markup Language) ialah bahasa penanda yang digunakan untuk menerangkan data. Ciri penting XML ialah anda boleh menyesuaikan teg, yang menjadikan data format XML lebih fleksibel dan boleh menyesuaikan diri dengan pelbagai keperluan format data.
Teg XML dibalut dengan kurungan sudut (< >), seperti <tag>
. Setiap dokumen XML mesti mempunyai nod akar, yang boleh mengandungi sebarang nombor dan jenis elemen. Struktur asas dokumen XML adalah seperti berikut:
<?xml version="1.0" encoding="UTF-8"?> <root> <element1> <subelement1>value1</subelement1> <subelement2>value2</subelement2> </element1> <element2> <subelement3>value3</subelement3> </element2> </root>
Ekspresi biasa ialah alat yang digunakan untuk memadankan rentetan sintaks. Modul semula dalam Python menyediakan fungsi yang menyokong ungkapan biasa.
Dalam pemprosesan XML, kami biasanya menggunakan ungkapan biasa untuk menghuraikan elemen dan atribut dalam XML. Berikut ialah contoh khusus:
import re xml_text = ''' <root> <person name="Tom" age="20"> <job>Engineer</job> </person> <person name="Alice" age="25"> <job>Doctor</job> </person> </root> ''' # 正则表达式 person_pattern = '<person.+?name="(.+?)".+?age="(.+?)".*?>.+?<job>(.*?)</job>.+?</person>' # 使用search函数匹配字符串 result = re.findall(person_pattern, xml_text, re.S) for person in result: name, age, job = person print("name:{}, age:{}, job:{}".format(name, age, job))
Dalam kod di atas, teks format XML pertama kali ditakrifkan, dan kemudian ungkapan biasa ditakrifkan untuk memadankan elemen orang dan atributnya. Dengan menggunakan fungsi padanan re.findall, semua keputusan padanan diperolehi.
Dalam contoh ini, kami menggunakan ungkapan biasa yang lebih kompleks. Dalam ungkapan biasa:
.+?
sepadan dengan mana-mana watak dan tidak tamak padanan untuk menghalang unsur orang lain daripada disertakan. .??
sepadan dengan tanda tanya. .*?
sepadan dengan mana-mana watak, padanan tidak tamak untuk mengelakkan teg berlebihan. (.+?)
mentakrifkan kumpulan penangkapan yang mewakili atribut yang dihuraikan atau maklumat teks. s
sepadan dengan mana-mana aksara ruang putih. </person>
sepadan dengan teg penutup. Dengan cara ini, kita boleh menghuraikan elemen dan atribut yang ditentukan dalam data XML dengan mudah.
Apabila menggunakan ungkapan biasa Python untuk pemprosesan XML, kita perlu memberi perhatian kepada perkara berikut:
Ekspresi biasa Python ialah alat pemprosesan teks yang berkuasa yang boleh digunakan untuk menghuraikan data dalam pelbagai format, termasuk data format XML. Dengan menggunakan ungkapan biasa, kami boleh menghuraikan elemen dan atribut dengan mudah dalam fail XML. Walau bagaimanapun, disebabkan kerumitan format XML, kita perlu berfikir dengan teliti dan menganalisisnya semasa pemprosesan untuk mengelakkan ralat padanan.
Atas ialah kandungan terperinci Cara menggunakan ungkapan biasa Python untuk pemprosesan XML. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!