首頁 後端開發 Python教學 使用 Python 遞歸合併 PDF

使用 Python 遞歸合併 PDF

Dec 29, 2024 pm 09:16 PM

Merge PDFs Recursively Using Python

介紹

將多個 PDF 檔案合併到一個文件中可能是一項繁瑣的任務,尤其是當檔案分佈在多個目錄中時。使用 Python,這項任務變得無縫且自動化。在本教學中,我們將使用 PyPDF2 建立一個命令列介面 (CLI) 工具,然後按一下合併目錄(包括其子目錄)中的所有 PDF 文件,同時排除 .venv 和 .git 等特定目錄。


先決條件

開始之前,請確保您具備以下條件:

  1. Python:版本 3.7 或更高版本。
  2. pip:Python 的套件管理器。
  3. 所需的庫

    • 安裝 PyPDF2 進行 PDF 操作:
     pip install PyPDF2
    
    登入後複製
  • 安裝點擊以建立 CLI:

     pip install click
    
    登入後複製

代碼演練

這是我們的 CLI 工具的完整程式碼:

import click
from pathlib import Path
from PyPDF2 import PdfMerger
import os

EXCLUDED_DIRS = {".venv", ".git"}

@click.command()
@click.argument("directory", type=click.Path(exists=True, file_okay=False, path_type=Path))
@click.argument("output_file", type=click.Path(dir_okay=False, writable=True, path_type=Path))
def merge_pdfs(directory: Path, output_file: Path):
    """
    Merge all PDF files from DIRECTORY and its subdirectories into OUTPUT_FILE,
    excluding specified directories like .venv and .git.
    """
    # Initialize the PdfMerger
    merger = PdfMerger()

    # Walk through the directory tree, including the base directory
    for root, dirs, files in os.walk(directory):
        # Exclude specific directories
        dirs[:] = [d for d in dirs if d not in EXCLUDED_DIRS]

        # Convert the root to a Path object
        current_dir = Path(root)

        click.echo(f"Processing directory: {current_dir}")

        # Collect PDF files in the current directory
        pdf_files = sorted(current_dir.glob("*.pdf"))

        if not pdf_files:
            click.echo(f"No PDF files found in {current_dir}")
            continue

        # Add PDF files from the current directory
        for pdf in pdf_files:
            click.echo(f"Adding {pdf}...")
            merger.append(str(pdf))

    # Write the merged output file
    output_file.parent.mkdir(parents=True, exist_ok=True)
    merger.write(str(output_file))
    merger.close()

    click.echo(f"All PDFs merged into {output_file}")

if __name__ == "__main__":
    merge_pdfs()
登入後複製

它是如何運作的

  1. 目錄遍歷:

    • os.walk()函數遞歸遍歷指定目錄。
    • 使用目錄過濾器排除特定目錄(例如 .venv、.git)。
  2. PDF 文件集合:

    • current_dir.glob("*.pdf") 收集目前目錄下的所有 PDF 檔案。
  3. 合併 PDF:

    • PyPDF2 中的 PdfMerger 用於附加所有 PDF。
    • 合併後的輸出寫入指定檔。
  4. CLI 整合:

    • 點選庫可以輕鬆提供目錄和輸出檔案路徑作為參數。

運行工具

將程式碼儲存到檔案中,例如 merge_pdfs.py。從終端運行它,如下所示:

python merge_pdfs.py /path/to/directory /path/to/output.pdf
登入後複製

例子

假設您有以下目錄結構:

/documents
├── file1.pdf
├── subdir1
│   ├── file2.pdf
├── subdir2
│   ├── file3.pdf
├── .git
│   ├── ignored_file.pdf
登入後複製

如下運行該工具:

python merge_pdfs.py /documents /merged.pdf
登入後複製

這會將 file1.pdf、file2.pdf 和 file3.pdf 合併為 merged.pdf,跳過 .git。


特徵

  1. 遞歸合併:

    • 工具會自動包含所有子目錄中的 PDF。
  2. 目錄排除:

    • 排除 .venv 和 .git 等目錄以避免不相關的檔案。
  3. 排序合併:

    • 確保 PDF 按排序順序新增以獲得一致的結果。
  4. CLI 簡單性:

    • 提供使用者直覺的介面來指定輸入和輸出路徑。

注意事項和限制

  1. 大檔案

    • 合併大量 PDF 可能會消耗大量記憶體。首先使用較小的資料集進行測試。
  2. PDF 相容性:

    • 確保所有輸入的 PDF 有效且未損壞。
  3. 自訂排除

    • 修改 EXCLUDED_DIRS 設定以根據需要排除其他目錄。

結論

本教學示範如何使用 Python 自動合併目錄結構中的 PDF。提供的 CLI 工具非常靈活,可以適應更複雜的工作流程。嘗試一下,讓我們知道它如何為您服務!

編碼愉快! ?

以上是使用 Python 遞歸合併 PDF的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1654
14
CakePHP 教程
1413
52
Laravel 教程
1306
25
PHP教程
1252
29
C# 教程
1225
24
Python vs.C:申請和用例 Python vs.C:申請和用例 Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务,而C 适用于系统编程、游戏开发和嵌入式系统。Python以简洁和强大的生态系统著称,C 则以高性能和底层控制能力闻名。

Python:遊戲,Guis等 Python:遊戲,Guis等 Apr 13, 2025 am 12:14 AM

Python在遊戲和GUI開發中表現出色。 1)遊戲開發使用Pygame,提供繪圖、音頻等功能,適合創建2D遊戲。 2)GUI開發可選擇Tkinter或PyQt,Tkinter簡單易用,PyQt功能豐富,適合專業開發。

您可以在2小時內學到多少python? 您可以在2小時內學到多少python? Apr 09, 2025 pm 04:33 PM

兩小時內可以學到Python的基礎知識。 1.學習變量和數據類型,2.掌握控制結構如if語句和循環,3.了解函數的定義和使用。這些將幫助你開始編寫簡單的Python程序。

2小時的Python計劃:一種現實的方法 2小時的Python計劃:一種現實的方法 Apr 11, 2025 am 12:04 AM

2小時內可以學會Python的基本編程概念和技能。 1.學習變量和數據類型,2.掌握控制流(條件語句和循環),3.理解函數的定義和使用,4.通過簡單示例和代碼片段快速上手Python編程。

Python與C:學習曲線和易用性 Python與C:學習曲線和易用性 Apr 19, 2025 am 12:20 AM

Python更易學且易用,C 則更強大但複雜。 1.Python語法簡潔,適合初學者,動態類型和自動內存管理使其易用,但可能導致運行時錯誤。 2.C 提供低級控制和高級特性,適合高性能應用,但學習門檻高,需手動管理內存和類型安全。

Python:探索其主要應用程序 Python:探索其主要應用程序 Apr 10, 2025 am 09:41 AM

Python在web開發、數據科學、機器學習、自動化和腳本編寫等領域有廣泛應用。 1)在web開發中,Django和Flask框架簡化了開發過程。 2)數據科學和機器學習領域,NumPy、Pandas、Scikit-learn和TensorFlow庫提供了強大支持。 3)自動化和腳本編寫方面,Python適用於自動化測試和系統管理等任務。

Python和時間:充分利用您的學習時間 Python和時間:充分利用您的學習時間 Apr 14, 2025 am 12:02 AM

要在有限的時間內最大化學習Python的效率,可以使用Python的datetime、time和schedule模塊。 1.datetime模塊用於記錄和規劃學習時間。 2.time模塊幫助設置學習和休息時間。 3.schedule模塊自動化安排每週學習任務。

Python:自動化,腳本和任務管理 Python:自動化,腳本和任務管理 Apr 16, 2025 am 12:14 AM

Python在自動化、腳本編寫和任務管理中表現出色。 1)自動化:通過標準庫如os、shutil實現文件備份。 2)腳本編寫:使用psutil庫監控系統資源。 3)任務管理:利用schedule庫調度任務。 Python的易用性和豐富庫支持使其在這些領域中成為首選工具。

See all articles