首頁 後端開發 Python教學 python爬蟲抓取的資料轉換成 PDF

python爬蟲抓取的資料轉換成 PDF

May 08, 2017 pm 04:56 PM

本文給大家分享的是使用python爬蟲實作把《廖雪峰的Python 教學》轉換成PDF的方法和程式碼,有需要的小夥伴可以參考下

寫爬蟲似乎沒有比用Python 更合適了,Python 社區提供的爬蟲工具多得讓你眼花繚亂,各種拿來就可以直接用的library 分分鐘就可以寫出一個爬蟲出來,今天就琢磨著寫一個爬蟲,將廖雪峰的Python 教程爬下來做成PDF 電子書方便大家離線閱讀。

開始寫爬蟲前,我們先來分析一下該網站1的頁面結構,網頁的左側是教程的目錄大綱,每個URL 對應到右邊的一篇文章,右側上方是文章的標題,中間是文章的正文部分,正文內容是我們關心的重點,我們要爬的資料就是所有網頁的正文部分,下方是使用者的評論區,留言區對我們沒什麼用,所以可以忽略它。

工具準備

弄清楚了網站的基本結構後就可以開始準備爬蟲所依賴的工具包了。 requests、beautifulsoup 是爬蟲兩大神器,reuqests 用於網路請求,beautifusoup 用於操作 html 資料。有了這兩把梭子,幹起活來利索,scrapy 這樣的爬蟲框架我們就不用了,小程式派上它有點殺雞用牛刀的意思。此外,既然是把html 檔案轉換成pdf,那麼也要有對應的函式庫支持, wkhtmltopdf 是一個非常好的工具,它可以用適用於多平台的html 到pdf 的轉換, pdfkit 是wkhtmltopdf 的Python封裝包。首先安裝好下面的依賴包,

接著安裝wkhtmltopdf

pip install requests
pip install beautifulsoup
pip install pdfkit
登入後複製

安裝wkhtmltopdf

##Windows平台直接在wkhtmltopdf 官網2下載穩定版的進行安裝,安裝完成之後把程式的執行路徑加入到系統環境$PATH

變數中,否則pdfkit 找不到wkhtmltopdf 就出現錯誤「No wkhtmltopdf executable found」。 Ubuntu 和CentOS 可以直接用命令列進行安裝

$ sudo apt-get install wkhtmltopdf # ubuntu
$ sudo yum intsall wkhtmltopdf   # centos
登入後複製

爬蟲實作

一切準備就緒後就可以上程式碼了,不過寫程式碼之前還是先整理一下思緒。程式的目的是要把所有 URL 對應的 html 正文部分儲存到本機,然後利用 pdfkit 把這些檔案轉換成一個 pdf 檔。我們把任務拆分一下,首先是把某一個 URL 對應的 html 正文儲存到本地,然後找到所有的 URL 執行相同的操作。

用 Chrome 瀏覽器找到頁面正文部分的標籤,按 F12 找到正文對應的 p 標籤: 

,該 p 是網頁的正文內容。用 requests 把整個頁面載入到本機後,就可以使用 beautifulsoup 運算 HTML 的 dom 元素 來擷取正文內容了。

具體的實作程式碼如下:用 soup.find_all
函數找到正文標籤,然後把正文部分的內容儲存到 a.html 檔案中。

def parse_url_to_html(url):
  response = requests.get(url)
  soup = BeautifulSoup(response.content, "html5lib")
  body = soup.find_all(class_="x-wiki-content")[0]
  html = str(body)
  with open("a.html", 'wb') as f:
    f.write(html)
登入後複製

第二步就是把頁面左邊所有 URL 解析出來。採用相同的方式,找到左側選單標籤 

    #特定程式碼實作邏輯:因為頁面上有兩個uk-nav uk-nav-side的class

    屬性,而真正的目錄清單是第二個。所有的 url 獲取了,url 轉 html 的函數在第一步也寫好了。

    def get_url_list():
      """
      获取所有URL目录列表
      """
      response = requests.get("http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000")
      soup = BeautifulSoup(response.content, "html5lib")
      menu_tag = soup.find_all(class_="uk-nav uk-nav-side")[1]
      urls = []
      for li in menu_tag.find_all("li"):
        url = "http://www.liaoxuefeng.com" + li.a.get('href')
        urls.append(url)
      return urls
    登入後複製

    最後一步就是把 html 轉換成pdf檔了。轉換成pdf 檔非常簡單,因為pdfkit 把所有的邏輯都封裝好了,你只需要呼叫函數pdfkit.from_file

    def save_pdf(htmls):
      """
      把所有html文件转换成pdf文件
      """
      options = {
        'page-size': 'Letter',
        'encoding': "UTF-8",
        'custom-header': [
          ('Accept-Encoding', 'gzip')
        ]
      }
      pdfkit.from_file(htmls, file_name, options=options)
    登入後複製
    執行save_pdf 函數,電子書pdf 檔就產生了,效果圖:

    總結

    總共程式碼量加起來不到50行,不過,且慢,其實上面給的程式碼省略了一些細節,例如,如何取得文章的標題,正文內容的img 標籤使用的是相對路徑,如果要想在pdf 中正常顯示

    圖片就需要將相對路徑改為絕對路徑,還有保存下來的html 臨時檔案都要刪除,這些細節末葉都放在github上。

    【相關推薦】


    #

    1. Python免費影片教學

    ##2.

    Python物件導向影片教學

    3.

    Python學習手冊

    以上是python爬蟲抓取的資料轉換成 PDF的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

HadiDB:Python 中的輕量級、可水平擴展的數據庫 HadiDB:Python 中的輕量級、可水平擴展的數據庫 Apr 08, 2025 pm 06:12 PM

HadiDB:輕量級、高水平可擴展的Python數據庫HadiDB(hadidb)是一個用Python編寫的輕量級數據庫,具備高度水平的可擴展性。安裝HadiDB使用pip安裝:pipinstallhadidb用戶管理創建用戶:createuser()方法創建一個新用戶。 authentication()方法驗證用戶身份。 fromhadidb.operationimportuseruser_obj=user("admin","admin")user_obj.

2小時的Python計劃:一種現實的方法 2小時的Python計劃:一種現實的方法 Apr 11, 2025 am 12:04 AM

2小時內可以學會Python的基本編程概念和技能。 1.學習變量和數據類型,2.掌握控制流(條件語句和循環),3.理解函數的定義和使用,4.通過簡單示例和代碼片段快速上手Python編程。

Navicat查看MongoDB數據庫密碼的方法 Navicat查看MongoDB數據庫密碼的方法 Apr 08, 2025 pm 09:39 PM

直接通過 Navicat 查看 MongoDB 密碼是不可能的,因為它以哈希值形式存儲。取回丟失密碼的方法:1. 重置密碼;2. 檢查配置文件(可能包含哈希值);3. 檢查代碼(可能硬編碼密碼)。

Python:探索其主要應用程序 Python:探索其主要應用程序 Apr 10, 2025 am 09:41 AM

Python在web開發、數據科學、機器學習、自動化和腳本編寫等領域有廣泛應用。 1)在web開發中,Django和Flask框架簡化了開發過程。 2)數據科學和機器學習領域,NumPy、Pandas、Scikit-learn和TensorFlow庫提供了強大支持。 3)自動化和腳本編寫方面,Python適用於自動化測試和系統管理等任務。

如何針對高負載應用程序優化 MySQL 性能? 如何針對高負載應用程序優化 MySQL 性能? Apr 08, 2025 pm 06:03 PM

MySQL數據庫性能優化指南在資源密集型應用中,MySQL數據庫扮演著至關重要的角色,負責管理海量事務。然而,隨著應用規模的擴大,數據庫性能瓶頸往往成為製約因素。本文將探討一系列行之有效的MySQL性能優化策略,確保您的應用在高負載下依然保持高效響應。我們將結合實際案例,深入講解索引、查詢優化、數據庫設計以及緩存等關鍵技術。 1.數據庫架構設計優化合理的數據庫架構是MySQL性能優化的基石。以下是一些核心原則:選擇合適的數據類型選擇最小的、符合需求的數據類型,既能節省存儲空間,又能提升數據處理速度

如何將 AWS Glue 爬網程序與 Amazon Athena 結合使用 如何將 AWS Glue 爬網程序與 Amazon Athena 結合使用 Apr 09, 2025 pm 03:09 PM

作為數據專業人員,您需要處理來自各種來源的大量數據。這可能會給數據管理和分析帶來挑戰。幸運的是,兩項 AWS 服務可以提供幫助:AWS Glue 和 Amazon Athena。

redis怎麼啟動服務器 redis怎麼啟動服務器 Apr 10, 2025 pm 08:12 PM

啟動 Redis 服務器的步驟包括:根據操作系統安裝 Redis。通過 redis-server(Linux/macOS)或 redis-server.exe(Windows)啟動 Redis 服務。使用 redis-cli ping(Linux/macOS)或 redis-cli.exe ping(Windows)命令檢查服務狀態。使用 Redis 客戶端,如 redis-cli、Python 或 Node.js,訪問服務器。

redis怎麼讀取隊列 redis怎麼讀取隊列 Apr 10, 2025 pm 10:12 PM

要從 Redis 讀取隊列,需要獲取隊列名稱、使用 LPOP 命令讀取元素,並處理空隊列。具體步驟如下:獲取隊列名稱:以 "queue:" 前綴命名,如 "queue:my-queue"。使用 LPOP 命令:從隊列頭部彈出元素並返回其值,如 LPOP queue:my-queue。處理空隊列:如果隊列為空,LPOP 返回 nil,可先檢查隊列是否存在再讀取元素。

See all articles