lxml处理xml时的字符编码问题-XML/RSS教程-PHP中文网

首页

后端开发

XML/RSS教程

lxml处理xml时的字符编码问题

黄舟

Apr 18, 2017 am 09:16 AM

为了简化问题，就把xml的内容简化为如下的形式:

<?xml version="1.0" encoding="gbk"?>
<DOCUMENT>
<da><![CDATA[中文，就是任性]]></da>
</DOCUMENT>

登录后复制

它的encoding为gbk，其中的节点有一个为中文字符使用lxml提取节点的值时出现了如下的异常

lxml.etree.XMLSyntaxError: Extra content at the end of the document

登录后复制

此时对应的Python脚本为：

tst = u&#39;<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>&#39;
for event,element in etree.iterparse(BytesIO(tst.encode(&#39;utf-8&#39;))):
    print("%s, %s" % (element.tag, element.text))

登录后复制

不过简化之前，报的是另外一个异常

lxml.etree.XMLSyntaxError: input conversion failed due to input error, bytes 0x8B 0x2C 0xE6 0x9D

登录后复制

不论异常是哪一个，猜测还是和字符的编码形式有关。
经过各种尝试无果，后来在stackoverflow上看到这篇文章，文中提到的问题和xml中的encoding值有关，尝试了增加了一段代码

tst = u&#39;<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>&#39;
tst = tst.replace(&#39;encoding="gbk"&#39;, &#39;encoding="utf-8"&#39;)
for event,element in etree.iterparse(BytesIO(tst.encode(&#39;utf-8&#39;))):
    print("%s, %s" % (element.tag, element.text))

登录后复制

增加了一个替换的语句，将之前的encoding="gbk"替换成encoding:"utf-8" 于是终于得到了结果：

da, 中文，就是任性
DOCUMENT, None

登录后复制

以上是lxml处理xml时的字符编码问题的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7647

CakePHP 教程

1392

steam的账户名称是什么格式

win11激活密钥永久

NYT迷你填字游戏答案

110

显示更多

Related knowledge

能否用PowerPoint打开XML文件 Feb 19, 2024 pm 09:06 PM

XML文件可以用PPT打开吗？XML，即可扩展标记语言（ExtensibleMarkupLanguage），是一种被广泛应用于数据交换和数据存储的通用标记语言。与HTML相比，XML更加灵活，能够定义自己的标签和数据结构，使得数据的存储和交换更加方便和统一。而PPT，即PowerPoint，是微软公司开发的一种用于创建演示文稿的软件。它提供了图文并茂的方

Python中的XML数据转换为CSV格式 Aug 11, 2023 pm 07:41 PM

Python中的XML数据转换为CSV格式XML（ExtensibleMarkupLanguage）是一种可扩展标记语言，常用于数据的存储和传输。而CSV（CommaSeparatedValues）则是一种以逗号分隔的文本文件格式，常用于数据的导入和导出。在处理数据时，有时需要将XML数据转换为CSV格式以便于分析和处理。Python作为一种功能强大

如何解决tomcat日志中的乱码问题？ Dec 28, 2023 pm 01:50 PM

解决tomcat日志乱码问题的方法有哪些？Tomcat是一个流行的开源JavaServlet容器，广泛用于支持JavaWeb应用程序的部署和运行。然而，有时候在使用Tomcat记录日志时会出现乱码问题，这给开发人员带来了不少困扰。本文将介绍几种解决Tomcat日志乱码问题的方法。调整Tomcat的字符编码设置Tomcat默认使用ISO-8859-1字符编

使用Python处理XML中的错误和异常 Aug 08, 2023 pm 12:25 PM

使用Python处理XML中的错误和异常XML是一种常用的数据格式，用于存储和表示结构化的数据。当我们使用Python处理XML时，有时可能会遇到一些错误和异常。在本篇文章中，我将介绍如何使用Python来处理XML中的错误和异常，并提供一些示例代码供参考。使用try-except语句捕获XML解析错误当我们使用Python解析XML时，有时候可能会遇到一些

Python解析XML中的特殊字符和转义序列 Aug 08, 2023 pm 12:46 PM

Python解析XML中的特殊字符和转义序列XML（eXtensibleMarkupLanguage）是一种常用的数据交换格式，用于在不同系统之间传输和存储数据。在处理XML文件时，经常会遇到包含特殊字符和转义序列的情况，这可能会导致解析错误或者误解数据。因此，在使用Python解析XML文件时，我们需要了解如何处理这些特殊字符和转义序列。一、特殊字符和

C#开发中如何处理XML和JSON数据格式 Oct 09, 2023 pm 06:15 PM

C#开发中如何处理XML和JSON数据格式，需要具体代码示例在现代软件开发中，XML和JSON是广泛应用的两种数据格式。XML（可扩展标记语言）是一种用于存储和传输数据的标记语言，而JSON（JavaScript对象表示）是一种轻量级的数据交换格式。在C#开发中，我们经常需要处理和操作XML和JSON数据，本文将重点介绍如何使用C#处理这两种数据格式，并附上

使用Python实现XML中的数据校验 Aug 10, 2023 pm 01:37 PM

使用Python实现XML中的数据校验引言：在现实生活中，我们经常会处理各种各样的数据，其中XML（可扩展标记语言）是一种常用的数据格式。XML具有良好的可读性和可扩展性，被广泛应用于各种领域，如数据交换、配置文件等。在处理XML数据时，我们经常需要对数据进行校验，以确保数据的完整性和正确性。本文将介绍如何使用Python实现XML中的数据校验，并给出相应的

Python如何解析XML文件 Aug 09, 2023 am 11:48 AM

Python如何解析XML文件XML（eXtensibleMarkupLanguage）是一种用于表示结构化数据的标记语言。在处理XML数据时，我们经常需要解析XML文件以提取所需的信息。Python提供了很多库和模块来解析XML文件，例如ElementTree、lxml等。本文将介绍如何使用Python解析XML文件，并附带代码示例。在Python中，

See all articles

lxml处理xml时的字符编码问题

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题