Mengekstrak Teks daripada Fail HTML dengan Python: Panduan Komprehensif
Pengenalan
Mengekstrak teks daripada fail HTML boleh menjadi penting untuk pelbagai tugas pemprosesan dan analisis data. Walaupun ungkapan biasa mungkin boleh dilaksanakan untuk struktur HTML yang mudah, mereka boleh bergelut dengan kod yang kurang terbentuk. Artikel ini meneroka alternatif yang teguh - Sup Cantik - dan menyediakan penyelesaian praktikal yang mengalih keluar JavaScript yang tidak diingini dengan berkesan dan mentafsir entiti HTML.
Menggunakan Sup Cantik
Untuk mengekstrak teks menggunakan Sup Cantik, ikut langkah berikut:
Contoh Kod
Berikut ialah kod lengkap contoh:
from urllib.request import urlopen from bs4 import BeautifulSoup url = "http://news.bbc.co.uk/2/hi/health/2284783.stm" html = urlopen(url).read() soup = BeautifulSoup(html, features="html.parser") for script in soup(["script", "style"]): script.extract() text = soup.get_text() lines = (line.strip() for line in text.splitlines()) chunks = (phrase.strip() for line in lines for phrase in line.split(" ")) text = '\n'.join(chunk for chunk in chunks if chunk) print(text)
Pilihan Tambahan
Kesimpulan
Panduan ini menyediakan penyelesaian komprehensif untuk mengekstrak teks daripada fail HTML menggunakan BeautifulSoup. Dengan mengalih keluar elemen yang tidak diingini dan mentafsir entiti HTML, ia berkesan menjana output teks biasa untuk pemprosesan dan analisis selanjutnya.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengekstrak Teks Bersih dengan Cekap daripada Fail HTML Menggunakan Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!