在Python 中使用urllib2.urlopen(request) 等靜態方法時,從網頁抓取動態內容可能會帶來挑戰。此類內容通常由嵌入頁面中的 JavaScript 產生和執行。
解決此問題的一種方法是利用 Selenium 框架和 Phantom JS 作為 Web 驅動程式。確保 Phantom JS 已安裝,並且其二進位檔案在目前路徑中可用。
這裡有一個範例來說明:
import requests from bs4 import BeautifulSoup response = requests.get(my_url) soup = BeautifulSoup(response.text) soup.find(id="intro-text") # Result: <p>
此程式碼將在沒有 JavaScript 支援的情況下擷取頁面。要使用 JS 支援進行抓取,請使用 Selenium:
from selenium import webdriver driver = webdriver.PhantomJS() driver.get(my_url) p_element = driver.find_element_by_id(id_='intro-text') print(p_element.text) # Result: 'Yay! Supports javascript'
或者,您可以使用專為抓取 JavaScript 驅動的網站而設計的 Python 庫,例如 dryscrape:
import dryscrape from bs4 import BeautifulSoup session = dryscrape.Session() session.visit(my_url) response = session.body() soup = BeautifulSoup(response) soup.find(id="intro-text") # Result: <p>
以上是如何在 Python 中抓取動態 JavaScript 渲染內容?的詳細內容。更多資訊請關注PHP中文網其他相關文章!