Extraire du contenu à partir de chaînes HTML en Python
Lorsque vous travaillez avec des données HTML en Python, il est souvent souhaitable de supprimer les balises de formatage et de conserver uniquement le contenu du texte. Cette vue simplifiée des données peut être utile pour résumer du texte, effectuer un traitement du langage naturel et d'autres tâches.
Une façon d'y parvenir en Python consiste à utiliser la classe MLStripper, qui utilise l'analyseur HTML intégré de Python.
# For Python 3+ from io import StringIO from html.parser import HTMLParser class MLStripper(HTMLParser): def __init__(self): super().__init__() self.reset() self.strict = False self.convert_charrefs= True self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
# For Python 2 from HTMLParser import HTMLParser from StringIO import StringIO class MLStripper(HTMLParser): def __init__(self): self.reset() self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
En passant du contenu HTML à la fonction strip_tags, vous pouvez facilement extraire uniquement les parties de texte du HTML :
cleaned_content = strip_tags("<b>Hello</b> world") # Prints "Hello world"
Cette classe MLStripper et la fonction strip_tags offrent un moyen pratique de traiter le contenu HTML en Python, vous permettant de vous concentrer sur le contenu du texte sans les distractions des balises de formatage.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!