Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimanakah Saya Boleh Mengeluarkan Kandungan Teks dengan Cekap daripada Rentetan HTML dalam Python?

Bagaimanakah Saya Boleh Mengeluarkan Kandungan Teks dengan Cekap daripada Rentetan HTML dalam Python?

Mary-Kate Olsen
Lepaskan: 2024-12-05 07:41:09
asal
766 orang telah melayarinya

How Can I Efficiently Extract Text Content from HTML Strings in Python?

Mengekstrak Kandungan daripada Rentetan HTML dalam Python

Apabila bekerja dengan data HTML dalam Python, selalunya wajar untuk menanggalkan tag pemformatan dan mengekalkan kandungan teks sahaja. Paparan data yang dipermudahkan ini boleh berguna untuk meringkaskan teks, melaksanakan pemprosesan bahasa semula jadi dan tugasan lain.

Salah satu cara untuk mencapai ini dalam Python ialah melalui kelas MLStripper, yang menggunakan penghurai HTML terbina dalam Python.

# For Python 3+
from io import StringIO
from html.parser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs= True
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()
Salin selepas log masuk
# For Python 2
from HTMLParser import HTMLParser
from StringIO import StringIO

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()
Salin selepas log masuk

Dengan menghantar kandungan HTML ke fungsi strip_tags, anda boleh mengekstrak bahagian teks dengan mudah sahaja HTML:

cleaned_content = strip_tags("<b>Hello</b> world")
# Prints "Hello world"
Salin selepas log masuk

Kelas MLStripper ini dan fungsi strip_tags menyediakan cara yang mudah untuk memproses kandungan HTML dalam Python, membolehkan anda menumpukan pada kandungan teks tanpa gangguan pemformatan teg.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengeluarkan Kandungan Teks dengan Cekap daripada Rentetan HTML dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan