社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 後端開發 > Python教學 > 如何使用BeautifulSoup擷取可見網頁文字？

如何使用BeautifulSoup擷取可見網頁文字？

DDD

發布： 2024-11-25 18:41:09

原創

797 人瀏覽過

How to Extract Visible Webpage Text Using BeautifulSoup?

使用BeautifulSoup 提取可見網頁文本

許多網頁抓取任務涉及檢索網頁的可見文本內容，不包括腳本等元素，註釋和CSS 樣式。使用 BeautifulSoup，透過正確的方法可以輕鬆實現這一點。

使用 findAll() 函數時會出現一個常見問題，因為它會檢索所有文字節點，包括隱藏在不需要的元素中的節點。為了解決這個問題，我們可以定義一個自訂過濾器來排除特定的標籤和評論。

以下程式碼舉例說明了這種方法：

from bs4 import BeautifulSoup
from bs4.element import Comment
import urllib.request


def tag_visible(element):
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True


def text_from_html(body):
    soup = BeautifulSoup(body, 'html.parser')
    texts = soup.findAll(text=True)
    visible_texts = filter(tag_visible, texts)
    return u" ".join(t.strip() for t in visible_texts)

html = urllib.request.urlopen('http://www.nytimes.com/2009/12/21/us/21storm.html').read()
print(text_from_html(html))

登入後複製

tag_visible 函數檢查文字的父元素是否節點符合任何不需要的標籤或節點是否是註解。然後，通過此篩選器的節點將使用 u" ".join(t.strip() for t invisible_texts) 將可見文字組合成單一字串。

此方法僅有效地從一個網頁，省略腳本和評論等不必要的元素。

以上是如何使用BeautifulSoup擷取可見網頁文字？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

來源：php.cn

上一篇：如何在 Python 中從 CSV 檔案建立單一字典？下一篇：如何修復“ImportError：沒有名為“pygame”的模組”錯誤？

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

如何使用 Laravel 的查詢產生器從子查詢中優雅地進行選擇？

2025-01-12 10:34:43
如何從 Oracle 的 PL/SQL 區塊內輸出 SELECT 語句結果？

2025-01-12 10:32:43
使用 React Tailwind CSS 的動態頭部圖片框

2025-01-12 10:31:44
是否存在與 C Typedef 等效的 C#？

2025-01-12 10:30:43
`#if DEBUG` 與 `[Conditional('DEBUG')]`：您應該選擇哪一種條件編譯方法？

2025-01-12 10:29:44
如何在 PostgreSQL SELECT 查詢中連接字串列？

2025-01-12 10:28:43
如何在 Web API 中使用 HttpClient POST JSON 資料？

2025-01-12 10:27:44
PostgreSQL 中的唯一約束與唯一索引：什麼時候該使用哪一個？

2025-01-12 10:26:43
#if DEBUG 與 Conditional('DEBUG')：您應該為您的 C# 專案選擇哪種條件編譯技術？

2025-01-12 10:25:45
每日 JavaScript 挑戰 #JS - 尋找字母順序中遺失的字母

2025-01-12 10:24:43

最新問題

function_exists()無法判定自訂函數 function test() { return true; } if (function_exists('TEST')) { ech...

來自於 2024-04-29 11:01:01

0

3

2447

google 瀏覽器手機版顯示的怎麼實現老師您好，google 瀏覽器怎麼變成手機版樣式的？

來自於 2024-04-23 00:22:19

0

11

2582

子窗口操作父窗口，輸出沒反應前兩句可執行，最後一句沒辦法應

來自於 2024-04-19 15:37:47

0

1

2182

父視窗沒有輸出 document.onclick = function(){ window.opener.document.write('我是子視窗的輸出'); ...

來自於 2024-04-18 23:52:34

0

1

2060

關於CSS心智圖的課件在哪？課件

來自於 2024-04-16 10:10:18

0

0

2162

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1427479
php入門教程之一週學會PHP

4277710
JAVA 初級入門影片教學

2577539
小甲魚零基礎入門學習Python影片教學

510181
PHP 零基礎入門教學

867376

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板