目錄
用於網頁抓取的基本 Python 函式庫
BeautifulSoup 簡介
Hello, World!
輸出
使用請求庫
Example Domain
Python 中的基本網頁抓取技術
使用 CSS 選擇器和 XPath 表達式擷取資料
Python Web Scraping
結論
首頁 後端開發 Python教學 在Python中的網頁抓取和資料擷取技術

在Python中的網頁抓取和資料擷取技術

Sep 16, 2023 pm 02:37 PM
python 資料擷取 網頁抓取

在Python中的網頁抓取和資料擷取技術

Python 已成為各種應用程式的首選程式語言,其多功能性延伸到了網頁抓取領域。憑藉其豐富的程式庫和框架生態系統,Python 提供了一個強大的工具包,可從網站提取資料並釋放有價值的見解。無論您是資料愛好者、研究人員還是行業專業人士,Python 中的網頁抓取都可以成為利用大量線上資訊的寶貴技能。

在本教程中,我們將深入研究網頁抓取領域,並探索 Python 中可用於從網站提取資料的各種技術和工具。我們將揭示網頁抓取的基礎知識,了解圍繞這種做法的合法性和道德考慮,並深入研究資料提取的實際方面。在本文的下一部分中,我們將介紹專為網頁擷取設計的基本 Python 程式庫。我們將仔細研究 BeautifulSoup,一個用於解析 HTML 和 XML 文件的流行庫,並探索如何利用它來有效地提取資料。

用於網頁抓取的基本 Python 函式庫

當涉及 Python 中的網頁抓取時,有幾個重要的程式庫提供了必要的工具和功能。在本節中,我們將向您介紹這些程式庫並重點介紹它們的主要功能。

BeautifulSoup 簡介

Python 中最受歡迎的網頁抓取庫之一是 BeautifulSoup。它使我們能夠輕鬆地解析和導航 HTML 和 XML 文件。 BeautifulSoup 可以輕鬆地從網頁中提取特定的資料元素,例如文字、連結、表格等。

要開始使用 BeautifulSoup,我們首先需要使用 Python 的套件管理器 pip 安裝它。開啟命令提示字元或終端機並執行以下命令:

pip install beautifulsoup4
登入後複製

安裝後,我們可以導入該庫並開始使用其功能。在本教程中,我們將重點放在 HTML 解析,因此讓我們探討一個範例。考慮以下 HTML 片段:

<html>
  <body>
    <h1 id="Hello-World">Hello, World!</h1>
    <p>Welcome to our website.</p>
  </body>
</html>
登入後複製

現在,讓我們來寫一些 Python 程式碼來使用 BeautifulSoup 解析此 HTML:

from bs4 import BeautifulSoup

html = '''
<html>
  <body>
    <h1 id="Hello-World">Hello, World!</h1>
    <p>Welcome to our website.</p>
  </body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')
title = soup.h1.text
paragraph = soup.p.text

print("Title:", title)
print("Paragraph:", paragraph)
登入後複製

輸出

Title: Hello, World!
Paragraph: Welcome to our website.
登入後複製

如您所見,我們從「bs4」模組匯入了 BeautifulSoup 類,並透過傳遞 HTML 內容和解析器類型(「html.parser」)來建立了它的實例。然後,我們使用「soup」物件透過標籤(例如「h1」、「p」)存取特定元素,並使用「.text」屬性來提取文字。

使用請求庫

Requests 函式庫是 Python 中網頁抓取的另一個重要工具。它簡化了發出 HTTP 請求和檢索網頁內容的過程。透過 Requests,我們可以取得網頁的 HTML,然後可以使用 BeautifulSoup 等函式庫來解析。

要安裝 Requests 函式庫,請在命令提示字元或終端機中執行下列命令:

pip install requests
登入後複製

安裝後,我們可以導入庫並開始使用它。讓我們來看看一個如何取得網頁 HTML 內容的範例:

import requests

url = "https://example.com"
response = requests.get(url)
html_content = response.text

print(html_content)
登入後複製

輸出

<!doctype html>
<html>
  <head>
    <title>Example Domain</title>
    ...
  </head>
  <body>
    <h1 id="Example-Domain">Example Domain</h1>
    ...
  </body>
</html>
登入後複製

在上面的程式碼中,我們導入了 Requests 函式庫並提供了我們想要抓取的網頁的 URL `(https://example.com`)。我們使用「get()」方法將 HTTP GET 請求傳送到指定的 URL,並將回應儲存在「response」變數中。最後,我們使用「.text」屬性存取回應的 HTML 內容。

Python 中的基本網頁抓取技術

在本節中,我們將使用 Python 探索一些基本的網頁抓取技術。我們將介紹如何使用 CSS 選擇器和 XPath 表達式檢索網頁內容和提取數據,以及處理抓取多個頁面的分頁。

使用 CSS 選擇器和 XPath 表達式擷取資料

我們可以使用 CSS 選擇器和 XPath 表達式從 HTML 中擷取資料。 BeautifulSoup 提供了「select()」和「find_all()」等方法來利用這些強大的技術。

考慮以下 HTML 片段:

<html>
  <body>
    <div class="container">
      <h1 id="Python-Web-Scraping">Python Web Scraping</h1>
      <ul>
        <li class="item">Data Extraction</li>
        <li class="item">Data Analysis</li>
      </ul>
    </div>
  </body>
</html>
登入後複製

讓我們使用 CSS 選擇器來提取清單項目:

from bs4 import BeautifulSoup

html = '''
<html>
  <body>
    <div class="container">
      <h1 id="Python-Web-Scraping">Python Web Scraping</h1>
      <ul>
        <li class="item">Data Extraction</li>
        <li class="item">Data Analysis</li>
      </ul>
    </div>
  </body>
</html>
'''

soup = BeautifulSoup(html, 'html.parser')
items = soup.select('.item')

for item in items:
    print(item.text)
登入後複製

輸出

Data Extraction
Data Analysis
登入後複製

在上面的程式碼中,我們使用「.select()」方法和 CSS 選擇器「.item」來選擇類別名為「item」的所有元素。然後,我們迭代所選元素並使用“.text”屬性列印其文字。

同樣,BeautifulSoup 支援 XPath 表達式進行資料擷取。但是,對於 XPath 功能,您可能需要安裝「lxml」庫,本教學未介紹該庫。

結論

在本教程中,我們探索了 Python 中的網頁抓取技術,並專注於基本庫。我們引入了 BeautifulSoup 來解析 HTML 和 XML,以及 Requests 來檢索網頁內容。我們提供了使用 CSS 選擇器提取資料的範例,並討論了網頁抓取的基礎知識。在下一節中,我們將深入探討進階技術,例如處理 JavaScript 渲染頁面和使用 API。請繼續關注以下文章中的更多見解!

以上是在Python中的網頁抓取和資料擷取技術的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

PHP和Python:解釋了不同的範例 PHP和Python:解釋了不同的範例 Apr 18, 2025 am 12:26 AM

PHP主要是過程式編程,但也支持面向對象編程(OOP);Python支持多種範式,包括OOP、函數式和過程式編程。 PHP適合web開發,Python適用於多種應用,如數據分析和機器學習。

在PHP和Python之間進行選擇:指南 在PHP和Python之間進行選擇:指南 Apr 18, 2025 am 12:24 AM

PHP適合網頁開發和快速原型開發,Python適用於數據科學和機器學習。 1.PHP用於動態網頁開發,語法簡單,適合快速開發。 2.Python語法簡潔,適用於多領域,庫生態系統強大。

Python vs. JavaScript:學習曲線和易用性 Python vs. JavaScript:學習曲線和易用性 Apr 16, 2025 am 12:12 AM

Python更適合初學者,學習曲線平緩,語法簡潔;JavaScript適合前端開發,學習曲線較陡,語法靈活。 1.Python語法直觀,適用於數據科學和後端開發。 2.JavaScript靈活,廣泛用於前端和服務器端編程。

PHP和Python:深入了解他們的歷史 PHP和Python:深入了解他們的歷史 Apr 18, 2025 am 12:25 AM

PHP起源於1994年,由RasmusLerdorf開發,最初用於跟踪網站訪問者,逐漸演變為服務器端腳本語言,廣泛應用於網頁開發。 Python由GuidovanRossum於1980年代末開發,1991年首次發布,強調代碼可讀性和簡潔性,適用於科學計算、數據分析等領域。

vs code 可以在 Windows 8 中運行嗎 vs code 可以在 Windows 8 中運行嗎 Apr 15, 2025 pm 07:24 PM

VS Code可以在Windows 8上運行,但體驗可能不佳。首先確保系統已更新到最新補丁,然後下載與系統架構匹配的VS Code安裝包,按照提示安裝。安裝後,注意某些擴展程序可能與Windows 8不兼容,需要尋找替代擴展或在虛擬機中使用更新的Windows系統。安裝必要的擴展,檢查是否正常工作。儘管VS Code在Windows 8上可行,但建議升級到更新的Windows系統以獲得更好的開發體驗和安全保障。

visual studio code 可以用於 python 嗎 visual studio code 可以用於 python 嗎 Apr 15, 2025 pm 08:18 PM

VS Code 可用於編寫 Python,並提供許多功能,使其成為開發 Python 應用程序的理想工具。它允許用戶:安裝 Python 擴展,以獲得代碼補全、語法高亮和調試等功能。使用調試器逐步跟踪代碼,查找和修復錯誤。集成 Git,進行版本控制。使用代碼格式化工具,保持代碼一致性。使用 Linting 工具,提前發現潛在問題。

notepad 怎麼運行python notepad 怎麼運行python Apr 16, 2025 pm 07:33 PM

在 Notepad 中運行 Python 代碼需要安裝 Python 可執行文件和 NppExec 插件。安裝 Python 並為其添加 PATH 後,在 NppExec 插件中配置命令為“python”、參數為“{CURRENT_DIRECTORY}{FILE_NAME}”,即可在 Notepad 中通過快捷鍵“F6”運行 Python 代碼。

vscode 擴展是否是惡意的 vscode 擴展是否是惡意的 Apr 15, 2025 pm 07:57 PM

VS Code 擴展存在惡意風險,例如隱藏惡意代碼、利用漏洞、偽裝成合法擴展。識別惡意擴展的方法包括:檢查發布者、閱讀評論、檢查代碼、謹慎安裝。安全措施還包括:安全意識、良好習慣、定期更新和殺毒軟件。

See all articles