Untuk membaca kandungan teks dalam fail HTML, lakukan langkah berikut: Muatkan fail HTML Parsing HTML Ekstrak teks menggunakan atribut teks atau kaedah get_text() Pilihan: Bersihkan teks (buang ruang putih, aksara khas dan tukar kepada huruf kecil) Keluarkan teks ( Cetak, tulis ke fail, dll.)
Cara membaca kandungan teks dalam fail HTML
Untuk mengekstrak kandungan teks daripada fail HTML, anda boleh menggunakan langkah berikut:
1. Muatkan fail HTML
<code class="python">import requests url = 'https://example.com' response = requests.get(url)</code>
2. Parse HTML
<code class="python">from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser')</code>
3 Ekstrak kandungan teks
Terdapat dua cara untuk mengekstrak kandungan teks:
text
属性:提取 HTML 标签内的所有文本,包括标签本身。<code class="python">text = soup.text</code>
get_text()
<code class="python">text = soup.get_text()</code>
get_text()
: Ekstrak teks dalam teg HTML, tetapi abaikan teg itu sendiri. . aksara:
<code class="python">text = text.replace(' ', '')</code>
<code class="python">import string text = text.translate(str.maketrans('', '', string.punctuation))</code>
<code class="python">text = text.lower()</code>
Atas ialah kandungan terperinci Bagaimana untuk membaca kandungan teks dalam fail html. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!