使用Python 要求取得JavaScript 產生的內容
嘗試使用Python 要求從網頁中擷取資訊時,如果內容是使用JavaScript 動態載入的。以下是如何克服這個障礙:
引入 requests-html
requests-html 模組透過將 JavaScript 執行整合到 HTTP 請求中來擴展 Requests 的功能。這使您能夠檢索 JavaScript 渲染頁面的完整內容。
使用requests-html
<code class="python">from requests_html import HTMLSession # Create a session that can execute JavaScript session = HTMLSession() # Fetch the page r = session.get('http://www.yourjspage.com') # Execute JavaScript and render the page r.html.render() # Access the rendered content content = r.html.html</code>
其他功能
除了JavaScript 執行之外,requestrequestrequests BeautifulSoup 庫,提供您解析HTML 內容的強大工具:
<code class="python"># Find and retrieve element content element_content = r.html.find('#myElementID').text</code>
結論
利用請求-html,您可以輕鬆地從利用Java 產生動態頁面的網站中檢索內容。它的易用性以及與 BeautifulSoup 的整合使其成為您的 Python 網路抓取工具庫的寶貴補充。
以上是如何使用 Python 請求抓取 JavaScript 產生的內容?的詳細內容。更多資訊請關注PHP中文網其他相關文章!