Untuk membaca kandungan teks dalam fail HTML, lakukan langkah berikut: Muatkan fail HTML Parsing HTML Ekstrak teks menggunakan atribut teks atau kaedah get_text() Pilihan: Bersihkan teks (buang ruang putih, aksara khas dan tukar kepada huruf kecil) Keluarkan teks ( Cetak, tulis ke fail, dll.)
Cara membaca kandungan teks dalam fail HTML
Untuk mengekstrak kandungan teks daripada fail HTML, anda boleh menggunakan langkah berikut:
1. Muatkan fail HTML
import requests url = 'https://example.com' response = requests.get(url)
2. Parse HTML
from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser')
3 Ekstrak kandungan teks
Terdapat dua cara untuk mengekstrak kandungan teks:
text
属性:提取 HTML 标签内的所有文本,包括标签本身。text = soup.text
get_text()
text = soup.get_text()
get_text()
: Ekstrak teks dalam teg HTML, tetapi abaikan teg itu sendiri. . aksara:
text = text.replace(' ', '')
import string text = text.translate(str.maketrans('', '', string.punctuation))
text = text.lower()
Atas ialah kandungan terperinci Bagaimana untuk membaca kandungan teks dalam fail html. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!