使用Python的Requests和BeautifulSoup下載PDF文件
Request 和 BeautifulSoup 是可以在線上下載任何檔案或 PDF 的 Python 函式庫。請求庫用於發送 HTTP 請求和接收回應。 BeautifulSoup 函式庫用於解析回應中收到的 HTML 並取得可下載的 pdf 連結。在本文中,我們將了解如何在 Python 中使用 Request 和 Beautiful Soup 下載 PDF。
安裝依賴項
在 Python 中使用 BeautifulSoup 和 Request 函式庫之前,我們需要使用 pip 指令在系統中安裝這些函式庫。若要安裝 request 以及 BeautifulSoup 和 Request 程式庫,請在終端機中執行下列命令。
pip install requests pip install beautifulsoup4
使用 Request 和 Beautiful Soup 下載 PDF
要從網路下載 PDF,您需要先使用請求庫找到 pdf 檔案的 URL。然後我們可以使用 Beautiful Soup 解析 HTML 回應並提取 PDF 文件的連結。然後將基本 URL 和解析後收到的 PDF 連結結合起來,得到 PDF 檔案的 URL。現在我們可以使用request方法發送Get請求來下載檔案了。
範例
在下面的程式碼中,將包含 PDF 文件 URL 的頁面的有效 URL 放在「https://example.com/document.pdf」處
import requests from bs4 import BeautifulSoup # Step 1: Fetch the PDF URL url = 'https://example.com/document.pdf' response = requests.get(url) if response.status_code == 200: # Step 2: Parse the HTML to get the PDF link soup = BeautifulSoup(response.text, 'html.parser') link = soup.find('a')['href'] # Step 3: Download the PDF pdf_url = url + link pdf_response = requests.get(pdf_url) if pdf_response.status_code == 200: with open('document.pdf', 'wb') as f: f.write(pdf_response.content) print('PDF downloaded successfully.') else: print('Error:', pdf_response.status_code) else: print('Error:', response.status_code)
輸出
PDF downloaded successfully.
結論
在本文中,我們討論如何使用 Python 中的 Request 和 Beautiful Soup 程式庫從網路下載 PDF 檔案。透過 request 方法,我們可以發送 HTTP 請求來驗證 PDF 連結。一旦找到包含 PDF 文件連結的頁面,我們就可以使用 Beautiful Soup 下載解析頁面並取得 PDF 下載連結。
以上是使用Python的Requests和BeautifulSoup下載PDF文件的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

HadiDB:輕量級、高水平可擴展的Python數據庫HadiDB(hadidb)是一個用Python編寫的輕量級數據庫,具備高度水平的可擴展性。安裝HadiDB使用pip安裝:pipinstallhadidb用戶管理創建用戶:createuser()方法創建一個新用戶。 authentication()方法驗證用戶身份。 fromhadidb.operationimportuseruser_obj=user("admin","admin")user_obj.

Python在web開發、數據科學、機器學習、自動化和腳本編寫等領域有廣泛應用。 1)在web開發中,Django和Flask框架簡化了開發過程。 2)數據科學和機器學習領域,NumPy、Pandas、Scikit-learn和TensorFlow庫提供了強大支持。 3)自動化和腳本編寫方面,Python適用於自動化測試和系統管理等任務。

2小時內可以學會Python的基本編程概念和技能。 1.學習變量和數據類型,2.掌握控制流(條件語句和循環),3.理解函數的定義和使用,4.通過簡單示例和代碼片段快速上手Python編程。

直接通過 Navicat 查看 MongoDB 密碼是不可能的,因為它以哈希值形式存儲。取回丟失密碼的方法:1. 重置密碼;2. 檢查配置文件(可能包含哈希值);3. 檢查代碼(可能硬編碼密碼)。

作為數據專業人員,您需要處理來自各種來源的大量數據。這可能會給數據管理和分析帶來挑戰。幸運的是,兩項 AWS 服務可以提供幫助:AWS Glue 和 Amazon Athena。

啟動 Redis 服務器的步驟包括:根據操作系統安裝 Redis。通過 redis-server(Linux/macOS)或 redis-server.exe(Windows)啟動 Redis 服務。使用 redis-cli ping(Linux/macOS)或 redis-cli.exe ping(Windows)命令檢查服務狀態。使用 Redis 客戶端,如 redis-cli、Python 或 Node.js,訪問服務器。

要從 Redis 讀取隊列,需要獲取隊列名稱、使用 LPOP 命令讀取元素,並處理空隊列。具體步驟如下:獲取隊列名稱:以 "queue:" 前綴命名,如 "queue:my-queue"。使用 LPOP 命令:從隊列頭部彈出元素並返回其值,如 LPOP queue:my-queue。處理空隊列:如果隊列為空,LPOP 返回 nil,可先檢查隊列是否存在再讀取元素。

問題:如何查看 Redis 服務器版本?使用命令行工具 redis-cli --version 查看已連接服務器的版本。使用 INFO server 命令查看服務器內部版本,需解析返回信息。在集群環境下,檢查每個節點的版本一致性,可使用腳本自動化檢查。使用腳本自動化查看版本,例如用 Python 腳本連接並打印版本信息。
