


Explication détaillée du problème de codage des caractères lorsque lxml traite XML
Afin de simplifier le problème, le contenu de xml est simplifié sous la forme suivante :
<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文,就是任性]]></da></DOCUMENT>
Son encodage est gbk, et l'un des nœuds est un caractère chinois
Lors de l'utilisation de lxml pour extraire la valeur d'un nœud, l'exception suivante s'est produite
lxml.etree.XMLSyntaxError: Extra content at the end of the document
Le script Python correspondant à ce moment est :
tst = u'<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文,就是任性]]></da></DOCUMENT>' for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))): print("%s, %s" % (element.tag, element.text))
Cependant, avant la simplification, il était signalé C'est une autre exception
lxml.etree.XMLSyntaxError: input conversion failed due to input error, bytes 0x8B 0x2C 0xE6 0x9D
Peu importe de quelle exception il s'agit, elle est probablement liée à la forme d'encodage des caractères.
Après diverses tentatives infructueuses, j'ai vu plus tard cet article sur stackoverflow. Le problème mentionné dans l'article est lié à la valeur d'encodage en XML. J'ai essayé d'ajouter un bout de code
tst = u'<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文,就是任性]]></da></DOCUMENT>' tst = tst.replace('encoding="gbk"', 'encoding="utf-8"') for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))): print("%s, %s" % (element.tag, element.text))
A. instruction de remplacement, en remplaçant le précédent encoding="gbk" par encoding:"utf-8"
Nous avons donc finalement obtenu le résultat :
da, 中文,就是任性 DOCUMENT, None
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Les fichiers XML peuvent-ils être ouverts avec PPT ? XML, Extensible Markup Language (Extensible Markup Language), est un langage de balisage universel largement utilisé dans l'échange et le stockage de données. Comparé au HTML, XML est plus flexible et peut définir ses propres balises et structures de données, rendant le stockage et l'échange de données plus pratiques et unifiés. PPT, ou PowerPoint, est un logiciel développé par Microsoft pour créer des présentations. Il fournit un moyen complet de

Convertir des données XML en Python au format CSV XML (ExtensibleMarkupLanguage) est un langage de balisage extensible couramment utilisé pour le stockage et la transmission de données. CSV (CommaSeparatedValues) est un format de fichier texte délimité par des virgules couramment utilisé pour l'importation et l'exportation de données. Lors du traitement des données, il est parfois nécessaire de convertir les données XML au format CSV pour faciliter l'analyse et le traitement. Python est un puissant

Quelles sont les méthodes pour résoudre le problème des journaux Tomcat tronqués ? Tomcat est un conteneur JavaServlet open source populaire largement utilisé pour prendre en charge le déploiement et l'exécution d'applications JavaWeb. Cependant, des caractères tronqués apparaissent parfois lors de l'utilisation de Tomcat pour enregistrer des journaux, ce qui cause beaucoup de problèmes aux développeurs. Cet article présentera plusieurs méthodes pour résoudre le problème des journaux Tomcat tronqués. Ajustez les paramètres de codage de caractères de Tomcat. Tomcat utilise le codage de caractères ISO-8859-1 par défaut.

Gestion des erreurs et des exceptions dans XML à l'aide de Python XML est un format de données couramment utilisé pour stocker et représenter des données structurées. Lorsque nous utilisons Python pour traiter XML, nous pouvons parfois rencontrer des erreurs et des exceptions. Dans cet article, je vais vous présenter comment utiliser Python pour gérer les erreurs et les exceptions dans XML, et fournir un exemple de code pour référence. Utilisez l'instruction try-sauf pour détecter les erreurs d'analyse XML Lorsque nous utilisons Python pour analyser XML, nous pouvons parfois rencontrer des

Python analyse les caractères spéciaux et les séquences d'échappement en XML XML (eXtensibleMarkupLanguage) est un format d'échange de données couramment utilisé pour transférer et stocker des données entre différents systèmes. Lors du traitement de fichiers XML, vous rencontrez souvent des situations contenant des caractères spéciaux et des séquences d'échappement, qui peuvent provoquer des erreurs d'analyse ou une mauvaise interprétation des données. Par conséquent, lors de l’analyse de fichiers XML à l’aide de Python, nous devons comprendre comment gérer ces caractères spéciaux et ces séquences d’échappement. 1. Caractères spéciaux et

La gestion des formats de données XML et JSON dans le développement C# nécessite des exemples de code spécifiques. Dans le développement de logiciels modernes, XML et JSON sont deux formats de données largement utilisés. XML (Extensible Markup Language) est un langage de balisage permettant de stocker et de transmettre des données, tandis que JSON (JavaScript Object Notation) est un format d'échange de données léger. Dans le développement C#, nous devons souvent traiter et exploiter des données XML et JSON. Cet article se concentrera sur la façon d'utiliser C# pour traiter ces deux formats de données et les attacher.

Utiliser Python pour implémenter la validation des données en XML Introduction : Dans la vraie vie, nous traitons souvent de données diverses, parmi lesquelles XML (Extensible Markup Language) est un format de données couramment utilisé. XML a une bonne lisibilité et évolutivité et est largement utilisé dans divers domaines, tels que l'échange de données, les fichiers de configuration, etc. Lors du traitement de données XML, nous devons souvent vérifier les données pour garantir leur intégrité et leur exactitude. Cet article présentera comment utiliser Python pour implémenter la vérification des données en XML et donnera le correspondant

Une méthode efficace pour résoudre le problème confus d'Eclipse nécessite des exemples de code spécifiques. Ces dernières années, avec le développement rapide du développement logiciel, Eclipse, en tant que l'un des environnements de développement intégrés les plus populaires, a apporté commodité et efficacité à de nombreux développeurs. Cependant, vous pouvez rencontrer des problèmes de code tronqué lors de l'utilisation d'Eclipse, ce qui entraîne des problèmes de développement de projet et de lecture de code. Cet article présentera quelques méthodes efficaces pour résoudre le problème des caractères tronqués dans Eclipse et fournira des exemples de code spécifiques. Modifier les paramètres d'encodage du fichier Eclipse : dans Eclip
