Maison > développement back-end > Tutoriel Python > python gère les caractères d'échappement HTML

python gère les caractères d'échappement HTML

高洛峰
Libérer: 2017-03-01 13:27:57
original
2060 Les gens l'ont consulté

L'exemple de cet article décrit comment Python gère les caractères d'échappement HTML. Partagez-le avec tout le monde pour votre référence, les détails sont les suivants :

Récemment, lorsque j'utilise Python pour traiter les données de pages Web, je rencontre souvent des caractères d'échappement HTML (également appelés entités de caractères HTML), tels que ≪> Les entités de caractères sont généralement utilisées pour représenter des caractères réservés dans les pages Web. Par exemple, > est représenté par > pour empêcher le navigateur de penser qu'il s'agit d'une balise. Pour plus de détails, veuillez vous référer aux entités de caractères HTML de w3school. Bien qu’utiles, ils peuvent grandement affecter l’analyse des données Web. Afin de gérer ces caractères d'échappement, il existe les solutions suivantes :

1. Utilisez HTMLParser pour traiter

import HTMLParser
html_cont = " asdfg>123<"
html_parser = HTMLParser.HTMLParser()
new_cont = html_parser.unescape(html_cont)
print new_cont #new_cont = " asdfg>123<"
Copier après la connexion

Reconvertir (seuls les espaces ne peuvent pas être reconvertis) :

import cgi
new_cont = cgi.escape(new_cont)
print new_cont #new_cont = " asdfg>123<"
Copier après la connexion

2. Remplacer directement

html_cont = " asdfg>123<"
new_cont = new_cont.replace(&#39; &#39;, &#39; &#39;)
print new_cont #new_cont = " asdfg>123<"
new_cont = new_cont.replace(&#39;>&#39;, &#39;>&#39;)
print new_cont #new_cont = " asdfg>123<"
new_cont = new_cont.replace(&#39;<&#39;, &#39;<&#39;)
print new_cont #new_cont = " asdfg>123<"
Copier après la connexion

Je ne sais pas s'il existe une meilleure façon.

De plus, stackoverflow fournit une réponse à la gestion des caractères d'échappement en XML : python - Quelle est la meilleure façon de gérer les entités de type - dans les documents XML avec lxml ?

Pour plus d'articles liés au traitement python des caractères d'échappement HTML, veuillez faire attention au site Web PHP chinois !

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal