Bagaimanakah Saya Boleh Mengeluarkan Kandungan Teks dengan Cekap daripada Rentetan HTML dalam Python?-Tutorial Python-php.cn

Bagaimanakah Saya Boleh Mengeluarkan Kandungan Teks dengan Cekap daripada Rentetan HTML dalam Python?

Mary-Kate Olsen

Lepaskan： 2024-12-05 07:41:09

asal

813 orang telah melayarinya

How Can I Efficiently Extract Text Content from HTML Strings in Python?

Mengekstrak Kandungan daripada Rentetan HTML dalam Python

Apabila bekerja dengan data HTML dalam Python, selalunya wajar untuk menanggalkan tag pemformatan dan mengekalkan kandungan teks sahaja. Paparan data yang dipermudahkan ini boleh berguna untuk meringkaskan teks, melaksanakan pemprosesan bahasa semula jadi dan tugasan lain.

Salah satu cara untuk mencapai ini dalam Python ialah melalui kelas MLStripper, yang menggunakan penghurai HTML terbina dalam Python.

# For Python 3+
from io import StringIO
from html.parser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs= True
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

Salin selepas log masuk

# For Python 2
from HTMLParser import HTMLParser
from StringIO import StringIO

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

Salin selepas log masuk

Dengan menghantar kandungan HTML ke fungsi strip_tags, anda boleh mengekstrak bahagian teks dengan mudah sahaja HTML:

cleaned_content = strip_tags("<b>Hello</b> world")
# Prints "Hello world"

Salin selepas log masuk

Kelas MLStripper ini dan fungsi strip_tags menyediakan cara yang mudah untuk memproses kandungan HTML dalam Python, membolehkan anda menumpukan pada kandungan teks tanpa gangguan pemformatan teg.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengeluarkan Kandungan Teks dengan Cekap daripada Rentetan HTML dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!