Explication détaillée du problème de codage des caractères lorsque lxml traite XML-Tutoriel XML/RSS-php.cn

Maison

développement back-end

Tutoriel XML/RSS

Explication détaillée du problème de codage des caractères lorsque lxml traite XML

黄舟

Mar 17, 2017 pm 04:53 PM

Afin de simplifier le problème, le contenu de xml est simplifié sous la forme suivante :

<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>

Copier après la connexion

Son encodage est gbk, et l'un des nœuds est un caractère chinois
Lors de l'utilisation de lxml pour extraire la valeur d'un nœud, l'exception suivante s'est produite

lxml.etree.XMLSyntaxError: Extra content at the end of the document

Copier après la connexion

Le script Python correspondant à ce moment est :

tst = u'<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>'
for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))):
    print("%s, %s" % (element.tag, element.text))

Copier après la connexion

Cependant, avant la simplification, il était signalé C'est une autre exception

lxml.etree.XMLSyntaxError: input conversion failed due to input error, bytes 0x8B 0x2C 0xE6 0x9D

Copier après la connexion

Peu importe de quelle exception il s'agit, elle est probablement liée à la forme d'encodage des caractères.
Après diverses tentatives infructueuses, j'ai vu plus tard cet article sur stackoverflow. Le problème mentionné dans l'article est lié à la valeur d'encodage en XML. J'ai essayé d'ajouter un bout de code

tst = u'<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>'
tst = tst.replace('encoding="gbk"', 'encoding="utf-8"')
for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))):
    print("%s, %s" % (element.tag, element.text))

Copier après la connexion

A. instruction de remplacement, en remplaçant le précédent encoding="gbk" par encoding:"utf-8"
Nous avons donc finalement obtenu le résultat :

da, 中文，就是任性
DOCUMENT, None

Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

4 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

4 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

1 Il y a quelques mois By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

1 Il y a quelques mois By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7700

Tutoriel Java

1640

Tutoriel CakePHP

1393

Tutoriel Laravel

1287

Tutoriel PHP

1230

Afficher plus

Related knowledge

Puis-je ouvrir un fichier XML à l'aide de PowerPoint ? Feb 19, 2024 pm 09:06 PM

Les fichiers XML peuvent-ils être ouverts avec PPT ? XML, Extensible Markup Language (Extensible Markup Language), est un langage de balisage universel largement utilisé dans l'échange et le stockage de données. Comparé au HTML, XML est plus flexible et peut définir ses propres balises et structures de données, rendant le stockage et l'échange de données plus pratiques et unifiés. PPT, ou PowerPoint, est un logiciel développé par Microsoft pour créer des présentations. Il fournit un moyen complet de

Convertir des données XML au format CSV en Python Aug 11, 2023 pm 07:41 PM

Convertir des données XML en Python au format CSV XML (ExtensibleMarkupLanguage) est un langage de balisage extensible couramment utilisé pour le stockage et la transmission de données. CSV (CommaSeparatedValues) est un format de fichier texte délimité par des virgules couramment utilisé pour l'importation et l'exportation de données. Lors du traitement des données, il est parfois nécessaire de convertir les données XML au format CSV pour faciliter l'analyse et le traitement. Python est un puissant

Comment résoudre le problème des caractères tronqués dans les journaux Tomcat ? Dec 28, 2023 pm 01:50 PM

Quelles sont les méthodes pour résoudre le problème des journaux Tomcat tronqués ? Tomcat est un conteneur JavaServlet open source populaire largement utilisé pour prendre en charge le déploiement et l'exécution d'applications JavaWeb. Cependant, des caractères tronqués apparaissent parfois lors de l'utilisation de Tomcat pour enregistrer des journaux, ce qui cause beaucoup de problèmes aux développeurs. Cet article présentera plusieurs méthodes pour résoudre le problème des journaux Tomcat tronqués. Ajustez les paramètres de codage de caractères de Tomcat. Tomcat utilise le codage de caractères ISO-8859-1 par défaut.

Gestion des erreurs et des exceptions en XML à l'aide de Python Aug 08, 2023 pm 12:25 PM

Gestion des erreurs et des exceptions dans XML à l'aide de Python XML est un format de données couramment utilisé pour stocker et représenter des données structurées. Lorsque nous utilisons Python pour traiter XML, nous pouvons parfois rencontrer des erreurs et des exceptions. Dans cet article, je vais vous présenter comment utiliser Python pour gérer les erreurs et les exceptions dans XML, et fournir un exemple de code pour référence. Utilisez l'instruction try-sauf pour détecter les erreurs d'analyse XML Lorsque nous utilisons Python pour analyser XML, nous pouvons parfois rencontrer des

Python analyse les caractères spéciaux et les séquences d'échappement en XML Aug 08, 2023 pm 12:46 PM

Python analyse les caractères spéciaux et les séquences d'échappement en XML XML (eXtensibleMarkupLanguage) est un format d'échange de données couramment utilisé pour transférer et stocker des données entre différents systèmes. Lors du traitement de fichiers XML, vous rencontrez souvent des situations contenant des caractères spéciaux et des séquences d'échappement, qui peuvent provoquer des erreurs d'analyse ou une mauvaise interprétation des données. Par conséquent, lors de l’analyse de fichiers XML à l’aide de Python, nous devons comprendre comment gérer ces caractères spéciaux et ces séquences d’échappement. 1. Caractères spéciaux et

Comment gérer les formats de données XML et JSON dans le développement C# Oct 09, 2023 pm 06:15 PM

La gestion des formats de données XML et JSON dans le développement C# nécessite des exemples de code spécifiques. Dans le développement de logiciels modernes, XML et JSON sont deux formats de données largement utilisés. XML (Extensible Markup Language) est un langage de balisage permettant de stocker et de transmettre des données, tandis que JSON (JavaScript Object Notation) est un format d'échange de données léger. Dans le développement C#, nous devons souvent traiter et exploiter des données XML et JSON. Cet article se concentrera sur la façon d'utiliser C# pour traiter ces deux formats de données et les attacher.

Utiliser Python pour implémenter la vérification des données en XML Aug 10, 2023 pm 01:37 PM

Utiliser Python pour implémenter la validation des données en XML Introduction : Dans la vraie vie, nous traitons souvent de données diverses, parmi lesquelles XML (Extensible Markup Language) est un format de données couramment utilisé. XML a une bonne lisibilité et évolutivité et est largement utilisé dans divers domaines, tels que l'échange de données, les fichiers de configuration, etc. Lors du traitement de données XML, nous devons souvent vérifier les données pour garantir leur intégrité et leur exactitude. Cet article présentera comment utiliser Python pour implémenter la vérification des données en XML et donnera le correspondant

Méthode efficace pour résoudre le problème des caractères tronqués dans l'éditeur Eclipse Jan 04, 2024 pm 06:56 PM

Une méthode efficace pour résoudre le problème confus d'Eclipse nécessite des exemples de code spécifiques. Ces dernières années, avec le développement rapide du développement logiciel, Eclipse, en tant que l'un des environnements de développement intégrés les plus populaires, a apporté commodité et efficacité à de nombreux développeurs. Cependant, vous pouvez rencontrer des problèmes de code tronqué lors de l'utilisation d'Eclipse, ce qui entraîne des problèmes de développement de projet et de lecture de code. Cet article présentera quelques méthodes efficaces pour résoudre le problème des caractères tronqués dans Eclipse et fournira des exemples de code spécifiques. Modifier les paramètres d'encodage du fichier Eclipse : dans Eclip

See all articles