Beim Parsen von HTML-Inhalten mit BeautifulSoup kann es zu Problemen kommen, wenn HTML-Entitäten codiert bleiben. Um diese Entitäten zu dekodieren und den tatsächlichen Textinhalt zu erhalten, können je nach verwendeter Python-Version verschiedene Ansätze verwendet werden.
In Python 3.4 und höher ist html.unescape() Die Funktion bietet eine einfache Methode zum Dekodieren von HTML-Entitäten:
import html print(html.unescape('£682m'))
Dies gibt die gewünschte Ausgabe zurück: „£682m“.
Für Python-Versionen zwischen 2.6 und 3.3 erweist sich die Methode HTMLParser.unescape() als nützlich:
try: # Python 2.6-2.7 from HTMLParser import HTMLParser except ImportError: # Python 3 from html.parser import HTMLParser h = HTMLParser() print(h.unescape('£682m'))
Alternativ: Die sechs Kompatibilitätsbibliotheken können Modulimporte vereinfachen und die Verwendung von HTMLParser in Python ermöglichen Versionen:
from six.moves.html_parser import HTMLParser h = HTMLParser() print(h.unescape('£682m'))
Durch die Verwendung dieser Python-Tools können Entwickler HTML-Entitäten effizient dekodieren und den gewünschten Textinhalt für ihre Analyseanforderungen erhalten.
Das obige ist der detaillierte Inhalt vonWie dekodiere ich HTML-Entitäten in Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!