Maison > développement back-end > Tutoriel Python > Comment puis-je extraire efficacement le contenu textuel des chaînes HTML en Python ?

Comment puis-je extraire efficacement le contenu textuel des chaînes HTML en Python ?

Mary-Kate Olsen
Libérer: 2024-12-05 07:41:09
original
766 Les gens l'ont consulté

How Can I Efficiently Extract Text Content from HTML Strings in Python?

Extraire du contenu à partir de chaînes HTML en Python

Lorsque vous travaillez avec des données HTML en Python, il est souvent souhaitable de supprimer les balises de formatage et de conserver uniquement le contenu du texte. Cette vue simplifiée des données peut être utile pour résumer du texte, effectuer un traitement du langage naturel et d'autres tâches.

Une façon d'y parvenir en Python consiste à utiliser la classe MLStripper, qui utilise l'analyseur HTML intégré de Python.

# For Python 3+
from io import StringIO
from html.parser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs= True
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()
Copier après la connexion
# For Python 2
from HTMLParser import HTMLParser
from StringIO import StringIO

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()
Copier après la connexion

En passant du contenu HTML à la fonction strip_tags, vous pouvez facilement extraire uniquement les parties de texte du HTML :

cleaned_content = strip_tags("<b>Hello</b> world")
# Prints "Hello world"
Copier après la connexion

Cette classe MLStripper et la fonction strip_tags offrent un moyen pratique de traiter le contenu HTML en Python, vous permettant de vous concentrer sur le contenu du texte sans les distractions des balises de formatage.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal