Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Strings dalam Python?

Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Strings dalam Python?

Susan Sarandon
Lepaskan: 2024-12-28 22:26:10
asal
938 orang telah melayarinya

How Can I Efficiently Strip HTML Tags from Strings in Python?

Melucutkan HTML daripada Strings dalam Python

Apabila berinteraksi dengan kandungan HTML, selalunya menjadi perlu untuk memisahkan teks yang bermakna daripada teg markup untuk pemprosesan atau analisis selanjutnya. Begini cara untuk mencapai ini dengan cekap dalam Python.

Untuk menanggalkan tag HTML daripada rentetan, gunakan HTMLParser daripada perpustakaan standard Python. Penghurai ini menyediakan cara yang mudah untuk menghuraikan dokumen HTML dan mengekstrak kandungan yang dikehendaki sahaja.

Untuk Python 3, gunakan kod berikut:

from io import StringIO
from html.parser import HTMLParser

class TagStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs = True
        self.text = StringIO()
    def handle_data(self, data):
        self.text.write(data)
    def get_data(self):
        return self.text.getvalue()

def strip_html(html):
    stripper = TagStripper()
    stripper.feed(html)
    return stripper.get_data()
Salin selepas log masuk

Untuk Python 2, gunakan kod berikut:

from HTMLParser import HTMLParser
from StringIO import StringIO

class TagStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.text = StringIO()
    def handle_data(self, data):
        self.text.write(data)
    def get_data(self):
        return self.text.getvalue()

def strip_html(html):
    stripper = TagStripper()
    stripper.feed(html)
    return stripper.get_data()
Salin selepas log masuk

Sekarang, mari kita gambarkan penggunaannya:

html = "<p>Hello, <em>world</em>!</p>"
stripped_text = strip_html(html)
print(stripped_text)  # Output: Hello, world!
Salin selepas log masuk

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Strings dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan