要讀取HTML 檔案中的文字內容,請執行下列步驟:載入HTML 檔案解析HTML使用text 屬性或get_text() 方法來擷取文字可選:清理文字(刪除空白、特殊字元和轉換小寫)輸出文字(列印、寫入檔案等)
#如何讀取HTML 檔案中的文字內容
#若要從HTML 檔案中擷取文字內容,可以使用下列步驟:
1.載入HTML 檔案
<code class="python">import requests url = 'https://example.com' response = requests.get(url)</code>
2.解析HTML
<code class="python">from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser')</code>
3. 提取文字內容
有兩種方法可以提取文字內容:
<code class="python">text = soup.text</code>
<code class="python">text = soup.get_text()</code>
#如果需要進一步清理文字內容,可以執行以下操作:
<code class="python">text = text.replace(' ', '')</code>
<code class="python">import string text = text.translate(str.maketrans('', '', string.punctuation))</code>
<code class="python">text = text.lower()</code>
<code class="python">print(text)</code>
<code class="python">with open('output.txt', 'w') as f: f.write(text)</code>
以上是如何讀取html檔案中的文字內容的詳細內容。更多資訊請關注PHP中文網其他相關文章!