首頁 > web前端 > js教程 > 如何在 Python 中抓取動態 JavaScript 渲染內容?

如何在 Python 中抓取動態 JavaScript 渲染內容?

DDD
發布: 2024-12-22 09:58:04
原創
338 人瀏覽過

How to Scrape Dynamic JavaScript-Rendered Content in Python?

如何在Python 中抓取JavaScript 產生的動態內容

在Python 中使用urllib2.urlopen(request) 等靜態方法時,從網頁抓取動態內容可能會帶來挑戰。此類內容通常由嵌入頁面中的 JavaScript 產生和執行。

解決此問題的一種方法是利用 Selenium 框架和 Phantom JS 作為 Web 驅動程式。確保 Phantom JS 已安裝,並且其二進位檔案在目前路徑中可用。

這裡有一個範例來說明:

import requests
from bs4 import BeautifulSoup
response = requests.get(my_url)
soup = BeautifulSoup(response.text)
soup.find(id="intro-text") # Result: <p>
登入後複製

此程式碼將在沒有 JavaScript 支援的情況下擷取頁面。要使用 JS 支援進行抓取,請使用 Selenium:

from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get(my_url)
p_element = driver.find_element_by_id(id_='intro-text')
print(p_element.text) # Result: 'Yay! Supports javascript'
登入後複製

或者,您可以使用專為抓取 JavaScript 驅動的網站而設計的 Python 庫,例如 dryscrape:

import dryscrape
from bs4 import BeautifulSoup
session = dryscrape.Session()
session.visit(my_url)
response = session.body()
soup = BeautifulSoup(response)
soup.find(id="intro-text") # Result: <p>
登入後複製

以上是如何在 Python 中抓取動態 JavaScript 渲染內容?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板