Jadual Kandungan
Gunakan perpustakaan semula
Menggunakan perpustakaan BeautifulSoup
Rumah hujung hadapan web Soal Jawab bahagian hadapan Bagaimana untuk membuang tag html dalam python

Bagaimana untuk membuang tag html dalam python

Apr 27, 2023 pm 04:39 PM

Jika anda kerap berurusan dengan kandungan web, anda mungkin perlu merangkak halaman web dan mengekstrak kandungan teks daripadanya. Walau bagaimanapun, teg dan maklumat gaya dalam kod HTML boleh membuat pemprosesan teks agak sukar. Dalam kes ini, bahasa pengaturcaraan Python menyediakan beberapa fungsi dan perpustakaan yang berguna untuk mengalih keluar tag HTML, membolehkan anda memproses dan menggunakan teks dengan lebih mudah.

Python menyediakan dua perpustakaan yang biasa digunakan untuk mengalih keluar teg HTML: semula dan BeautifulSoup. Di sini, kita akan belajar cara mengalih keluar tag HTML menggunakan kedua-dua perpustakaan ini.

Gunakan perpustakaan semula

Pustaka semula (ungkapan biasa) Python mempunyai keupayaan pemprosesan rentetan yang kuat. Kami boleh menggunakan beberapa kaedah pustaka ini untuk mengalih keluar teg HTML. Secara khusus, kita boleh menggunakan fungsi re.sub() untuk menggantikan teg HTML. Mari lihat contoh:

import re

def remove_tags(text):
    TAG_RE = re.compile(r'<[^>]+>')
    return TAG_RE.sub('', text)

html = '<html><head><title>Test</title></head><body><h1>Parse me!</h1></body></html>'
print(remove_tags(html))
Salin selepas log masuk

Output:

Test Parse me!
Salin selepas log masuk
Salin selepas log masuk

Dalam kod di atas, fungsi re.compile() digunakan untuk mencipta objek ungkapan biasa menggunakan '< 1+>' Ungkapan biasa sepadan dengan tag HTML. Kami kemudian menghantar objek ungkapan biasa ini sebagai parameter kepada fungsi re.sub(), yang menggantikan semua teg yang sepadan dengan rentetan kosong. Akhir sekali, kami memanggil fungsi dengan teks dengan tag HTML dialih keluar.

Walaupun mungkin mencukupi untuk menggunakan perpustakaan semula untuk memproses teks HTML yang ringkas, jika anda memproses teks HTML yang kompleks, anda akan mendapati bahawa apabila anda mula mempertimbangkan untuk memproses gaya CSS dan skrip JavaScript, Ia menjadi lebih sukar untuk berurusan. Dalam kes ini, anda boleh menggunakan perpustakaan BeautifulSoup.

Menggunakan perpustakaan BeautifulSoup

Pustaka BeautifulSoup menjadikannya lebih mudah untuk memproses teks HTML dan ia lebih fleksibel daripada pustaka semula. BeautifulSoup membantu anda menghuraikan teks HTML dan membolehkan anda memilih elemen tertentu seperti teg, kelas, dsb. Anda boleh menggunakan ini untuk mengalih keluar semua teg dan kemudian mengekstrak kandungan teks.

Berikut ialah contoh:

from bs4 import BeautifulSoup

def remove_tags(text):
    soup = BeautifulSoup(text, 'html.parser')
    return soup.get_text()

html = '<html><head><title>Test</title></head><body><h1>Parse me!</h1></body></html>'
print(remove_tags(html))
Salin selepas log masuk

Output:

Test Parse me!
Salin selepas log masuk
Salin selepas log masuk

Dalam kod di atas, kami menghantar teks HTML ke fungsi BeautifulSoup() untuk menghurai. Kemudian, gunakan kaedah soup.get_text() untuk mengekstrak kandungan teks sambil mengabaikan teg HTML.

Ringkasan

Sama ada anda menggunakan perpustakaan semula atau perpustakaan BeautifulSoup, Python menyediakan banyak kaedah untuk mengalih keluar teg HTML. Jika anda berurusan dengan teks HTML mudah, gunakan perpustakaan semula. Untuk teks HTML yang lebih kompleks, gunakan perpustakaan BeautifulSoup, yang akan menjadikan pemprosesan lebih mudah. Mana-mana kaedah yang anda pilih, anda harus biasa dengan ungkapan biasa dan memahami sintaks pustaka pilihan anda.


  1. >

Atas ialah kandungan terperinci Bagaimana untuk membuang tag html dalam python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Apa itu useeffect? Bagaimana anda menggunakannya untuk melakukan kesan sampingan? Apa itu useeffect? Bagaimana anda menggunakannya untuk melakukan kesan sampingan? Mar 19, 2025 pm 03:58 PM

Artikel ini membincangkan useeffect dalam React, cangkuk untuk menguruskan kesan sampingan seperti pengambilan data dan manipulasi DOM dalam komponen berfungsi. Ia menerangkan penggunaan, kesan sampingan yang biasa, dan pembersihan untuk mencegah masalah seperti kebocoran memori.

Bagaimanakah kari bekerja di JavaScript, dan apakah faedahnya? Bagaimanakah kari bekerja di JavaScript, dan apakah faedahnya? Mar 18, 2025 pm 01:45 PM

Artikel ini membincangkan kari dalam JavaScript, teknik yang mengubah fungsi multi-argumen ke dalam urutan fungsi argumen tunggal. Ia meneroka pelaksanaan kari, faedah seperti aplikasi separa, dan kegunaan praktikal, meningkatkan kod baca

Bagaimanakah algoritma Rekonsiliasi React berfungsi? Bagaimanakah algoritma Rekonsiliasi React berfungsi? Mar 18, 2025 pm 01:58 PM

Artikel ini menerangkan algoritma perdamaian React, yang dengan cekap mengemas kini DOM dengan membandingkan pokok DOM maya. Ia membincangkan manfaat prestasi, teknik pengoptimuman, dan kesan terhadap pengalaman pengguna. Kira -kira: 159

Apakah fungsi pesanan yang lebih tinggi dalam JavaScript, dan bagaimana mereka boleh digunakan untuk menulis lebih banyak kod ringkas dan boleh diguna semula? Apakah fungsi pesanan yang lebih tinggi dalam JavaScript, dan bagaimana mereka boleh digunakan untuk menulis lebih banyak kod ringkas dan boleh diguna semula? Mar 18, 2025 pm 01:44 PM

Fungsi pesanan yang lebih tinggi dalam JavaScript meningkatkan ketabahan kod, kebolehgunaan semula, modulariti, dan prestasi melalui abstraksi, corak umum, dan teknik pengoptimuman.

Bagaimana anda menyambungkan komponen React ke kedai Redux menggunakan Connect ()? Bagaimana anda menyambungkan komponen React ke kedai Redux menggunakan Connect ()? Mar 21, 2025 pm 06:23 PM

Artikel membincangkan penyambungan komponen reaksi ke kedai redux menggunakan Connect (), menerangkan MapStateToprops, MapdispatchToprops, dan kesan prestasi.

Apakah useContext? Bagaimana anda menggunakannya untuk berkongsi keadaan antara komponen? Apakah useContext? Bagaimana anda menggunakannya untuk berkongsi keadaan antara komponen? Mar 19, 2025 pm 03:59 PM

Artikel ini menerangkan USEContext dalam React, yang memudahkan pengurusan negara dengan mengelakkan penggerudian prop. Ia membincangkan faedah seperti keadaan terpusat dan penambahbaikan prestasi melalui pengurangan semula yang dikurangkan.

Bagaimana anda mengelakkan tingkah laku lalai di pengendali acara? Bagaimana anda mengelakkan tingkah laku lalai di pengendali acara? Mar 19, 2025 pm 04:10 PM

Artikel membincangkan menghalang tingkah laku lalai dalam pengendali acara menggunakan kaedah pencegahanDefault (), faedahnya seperti pengalaman pengguna yang dipertingkatkan, dan isu -isu yang berpotensi seperti kebimbangan aksesibiliti.

Apakah kelebihan dan kekurangan komponen terkawal dan tidak terkawal? Apakah kelebihan dan kekurangan komponen terkawal dan tidak terkawal? Mar 19, 2025 pm 04:16 PM

Artikel ini membincangkan kelebihan dan kekurangan komponen terkawal dan tidak terkawal dalam React, yang memberi tumpuan kepada aspek seperti ramalan, prestasi, dan kes penggunaan. Ia menasihatkan faktor -faktor yang perlu dipertimbangkan ketika memilih di antara mereka.

See all articles