Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Teks dalam Python?-Tutorial Python-php.cn

Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Teks dalam Python?

Linda Hamilton

Lepaskan： 2024-12-19 22:42:16

asal

607 orang telah melayarinya

How Can I Efficiently Strip HTML Tags from Text in Python?

Melucutkan Teg HTML dalam Python untuk Perwakilan Tekstual Tulen

Memanipulasi respons HTML selalunya melibatkan pengekstrakan kandungan teks yang berkaitan sambil menghapuskan teg pemformatan. Ini boleh dicapai dengan menanggalkan tag HTML dengan berkesan, meninggalkan anda dengan teks biasa yang dikehendaki.

Mencapai Pengekstrakan Teks Sahaja dengan MLStripper Python

Untuk menyelaraskan proses pelucutan, perpustakaan standard Python menyediakan fungsi yang cekap, MLStripper, direka khusus untuk tujuan ini. MLStripper mengambil input HTML dan menghuraikannya, hanya mengekalkan kandungan bukan penanda.

Pelaksanaan untuk Python 3 dan 2

Bergantung pada versi Python anda, anda boleh menggunakan yang berikut coretan kod:

Python 3:

from io import StringIO
from html.parser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs= True
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

Salin selepas log masuk

Python 2:

from HTMLParser import HTMLParser
from StringIO import StringIO

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

Salin selepas log masuk

Penggunaan:

Panggil sahaja strip_tags fungsi menghantar input HTML sebagai hujah rentetan. Nilai yang dikembalikan akan menjadi rentetan yang dilucutkan dengan semua teg HTML dialih keluar.

Teknik ini terbukti tidak ternilai apabila anda perlu bekerja dengan data teks yang diekstrak daripada sumber HTML, memastikan perwakilan teks yang bersih dan terurus.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Teks dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!