Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Teks dalam Python?

Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Teks dalam Python?

Linda Hamilton
Lepaskan: 2024-12-19 22:42:16
asal
607 orang telah melayarinya

How Can I Efficiently Strip HTML Tags from Text in Python?

Melucutkan Teg HTML dalam Python untuk Perwakilan Tekstual Tulen

Memanipulasi respons HTML selalunya melibatkan pengekstrakan kandungan teks yang berkaitan sambil menghapuskan teg pemformatan. Ini boleh dicapai dengan menanggalkan tag HTML dengan berkesan, meninggalkan anda dengan teks biasa yang dikehendaki.

Mencapai Pengekstrakan Teks Sahaja dengan MLStripper Python

Untuk menyelaraskan proses pelucutan, perpustakaan standard Python menyediakan fungsi yang cekap, MLStripper, direka khusus untuk tujuan ini. MLStripper mengambil input HTML dan menghuraikannya, hanya mengekalkan kandungan bukan penanda.

Pelaksanaan untuk Python 3 dan 2

Bergantung pada versi Python anda, anda boleh menggunakan yang berikut coretan kod:

Python 3:

from io import StringIO
from html.parser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs= True
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()
Salin selepas log masuk

Python 2:

from HTMLParser import HTMLParser
from StringIO import StringIO

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()
Salin selepas log masuk

Penggunaan:

Panggil sahaja strip_tags fungsi menghantar input HTML sebagai hujah rentetan. Nilai yang dikembalikan akan menjadi rentetan yang dilucutkan dengan semua teg HTML dialih keluar.

Teknik ini terbukti tidak ternilai apabila anda perlu bekerja dengan data teks yang diekstrak daripada sumber HTML, memastikan perwakilan teks yang bersih dan terurus.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Melucutkan Tag HTML dengan Cekap daripada Teks dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan