Rumah pembangunan bahagian belakang Tutorial XML/RSS 详解lxml处理xml时的字符编码问题

详解lxml处理xml时的字符编码问题

Mar 17, 2017 pm 04:53 PM

为了简化问题,就把xml的内容简化为如下的形式:

<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文,就是任性]]></da></DOCUMENT>
Salin selepas log masuk

它的encoding为gbk,其中的节点有一个为中文字符
使用lxml提取节点的值时出现了如下的异常

lxml.etree.XMLSyntaxError: Extra content at the end of the document
Salin selepas log masuk

此时对应的Python脚本为:

tst = u'<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文,就是任性]]></da></DOCUMENT>'
for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))):
    print("%s, %s" % (element.tag, element.text))
Salin selepas log masuk

不过简化之前,报的是另外一个异常

lxml.etree.XMLSyntaxError: input conversion failed due to input error, bytes 0x8B 0x2C 0xE6 0x9D
Salin selepas log masuk

不论异常是哪一个,猜测还是和字符的编码形式有关。
经过各种尝试无果,后来在stackoverflow上看到这篇文章,文中提到的问题和xml中的encoding值有关,尝试了增加了一段代码

tst = u'<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文,就是任性]]></da></DOCUMENT>'
tst = tst.replace('encoding="gbk"', 'encoding="utf-8"')
for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))):
    print("%s, %s" % (element.tag, element.text))
Salin selepas log masuk

增加了一个替换的语句,将之前的encoding="gbk"替换成encoding:"utf-8"
于是终于得到了结果:

da, 中文,就是任性
DOCUMENT, None
Salin selepas log masuk

Atas ialah kandungan terperinci 详解lxml处理xml时的字符编码问题. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Bolehkah saya membuka fail XML menggunakan PowerPoint? Bolehkah saya membuka fail XML menggunakan PowerPoint? Feb 19, 2024 pm 09:06 PM

Bolehkah fail XML dibuka dengan PPT? XML, Extensible Markup Language (Extensible Markup Language), ialah bahasa markup universal yang digunakan secara meluas dalam pertukaran data dan penyimpanan data. Berbanding dengan HTML, XML lebih fleksibel dan boleh menentukan tag dan struktur datanya sendiri, menjadikan penyimpanan dan pertukaran data lebih mudah dan bersatu. PPT, atau PowerPoint, ialah perisian yang dibangunkan oleh Microsoft untuk membuat pembentangan. Ia menyediakan cara yang komprehensif untuk

Tukar data XML kepada format CSV dalam Python Tukar data XML kepada format CSV dalam Python Aug 11, 2023 pm 07:41 PM

Tukar data XML dalam Python kepada format CSV XML (ExtensibleMarkupLanguage) ialah bahasa penanda boleh diperluas yang biasa digunakan untuk penyimpanan dan penghantaran data. CSV (CommaSeparatedValues) ialah format fail teks dipisahkan koma yang biasa digunakan untuk import dan eksport data. Semasa memproses data, kadangkala data XML perlu ditukar kepada format CSV untuk analisis dan pemprosesan yang mudah. Python adalah yang kuat

Bagaimana untuk menyelesaikan masalah watak bercelaru dalam log tomcat? Bagaimana untuk menyelesaikan masalah watak bercelaru dalam log tomcat? Dec 28, 2023 pm 01:50 PM

Apakah kaedah untuk menyelesaikan masalah balak tomcat bercelaru? Tomcat ialah bekas JavaServlet sumber terbuka yang popular yang digunakan secara meluas untuk menyokong penggunaan dan menjalankan aplikasi JavaWeb. Walau bagaimanapun, kadangkala aksara bercelaru muncul apabila menggunakan Tomcat untuk merekodkan log, yang menyebabkan banyak masalah kepada pembangun. Artikel ini akan memperkenalkan beberapa kaedah untuk menyelesaikan masalah log Tomcat yang kacau. Laraskan tetapan pengekodan aksara Tomcat menggunakan pengekodan aksara ISO-8859-1 secara lalai.

Mengendalikan ralat dan pengecualian dalam XML menggunakan Python Mengendalikan ralat dan pengecualian dalam XML menggunakan Python Aug 08, 2023 pm 12:25 PM

Mengendalikan Ralat dan Pengecualian dalam XML Menggunakan Python XML ialah format data yang biasa digunakan untuk menyimpan dan mewakili data berstruktur. Apabila kami menggunakan Python untuk memproses XML, kadangkala kami mungkin menghadapi beberapa ralat dan pengecualian. Dalam artikel ini, saya akan memperkenalkan cara menggunakan Python untuk mengendalikan ralat dan pengecualian dalam XML, dan menyediakan beberapa kod sampel untuk rujukan. Gunakan pernyataan cuba-kecuali untuk menangkap ralat penghuraian XML Apabila kami menggunakan Python untuk menghuraikan XML, kadangkala kami mungkin menghadapi beberapa

Python menghuraikan aksara khas dan urutan melarikan diri dalam XML Python menghuraikan aksara khas dan urutan melarikan diri dalam XML Aug 08, 2023 pm 12:46 PM

Python menghuraikan aksara khas dan jujukan melarikan diri dalam XML XML (eXtensibleMarkupLanguage) ialah format pertukaran data yang biasa digunakan untuk memindahkan dan menyimpan data antara sistem yang berbeza. Semasa memproses fail XML, anda sering menghadapi situasi yang mengandungi aksara khas dan urutan melarikan diri, yang boleh menyebabkan ralat penghuraian atau salah tafsiran data. Oleh itu, apabila menghuraikan fail XML menggunakan Python, kita perlu memahami cara mengendalikan aksara khas dan urutan melarikan diri ini. 1. Watak istimewa dan

Cara mengendalikan format data XML dan JSON dalam pembangunan C# Cara mengendalikan format data XML dan JSON dalam pembangunan C# Oct 09, 2023 pm 06:15 PM

Cara mengendalikan format data XML dan JSON dalam pembangunan C# memerlukan contoh kod khusus Dalam pembangunan perisian moden, XML dan JSON ialah dua format data yang digunakan secara meluas. XML (Extensible Markup Language) ialah bahasa penanda yang digunakan untuk menyimpan dan menghantar data, manakala JSON (JavaScript Object Notation) ialah format pertukaran data yang ringan. Dalam pembangunan C#, kami selalunya perlu memproses dan mengendalikan data XML dan JSON Artikel ini akan memfokuskan pada cara menggunakan C# untuk memproses kedua-dua format data ini dan melampirkan

Menggunakan Python untuk melaksanakan pengesahan data dalam XML Menggunakan Python untuk melaksanakan pengesahan data dalam XML Aug 10, 2023 pm 01:37 PM

Menggunakan Python untuk melaksanakan pengesahan data dalam XML Pengenalan: Dalam kehidupan sebenar, kita sering berurusan dengan pelbagai data, antaranya XML (Extensible Markup Language) ialah format data yang biasa digunakan. XML mempunyai kebolehbacaan dan kebolehskalaan yang baik, dan digunakan secara meluas dalam pelbagai bidang, seperti pertukaran data, fail konfigurasi, dsb. Semasa memproses data XML, kami selalunya perlu mengesahkan data untuk memastikan integriti dan ketepatan data. Artikel ini akan memperkenalkan cara menggunakan Python untuk melaksanakan pengesahan data dalam XML dan memberikan yang sepadan

Kaedah yang berkesan untuk menyelesaikan masalah watak bercelaru dalam editor eclipse Kaedah yang berkesan untuk menyelesaikan masalah watak bercelaru dalam editor eclipse Jan 04, 2024 pm 06:56 PM

Kaedah yang berkesan untuk menyelesaikan masalah eclipse yang bercelaru memerlukan contoh kod khusus Dalam beberapa tahun kebelakangan ini, dengan perkembangan pesat pembangunan perisian, eclipse, sebagai salah satu persekitaran pembangunan bersepadu yang paling popular, telah memberikan kemudahan dan kecekapan kepada banyak pembangun. Walau bagaimanapun, anda mungkin menghadapi masalah kod bercelaru apabila menggunakan eclipse, yang membawa masalah kepada pembangunan projek dan membaca kod. Artikel ini akan memperkenalkan beberapa kaedah yang berkesan untuk menyelesaikan masalah aksara bercelaru dalam Eclipse dan memberikan contoh kod khusus. Ubah suai tetapan pengekodan fail eclipse: dalam eclip

See all articles