여러 PDF 파일을 단일 문서로 병합하는 것은 지루한 작업이 될 수 있으며, 특히 파일이 여러 디렉터리에 분산되어 있는 경우 더욱 그렇습니다. Python을 사용하면 이 작업이 원활하고 자동화됩니다. 이 튜토리얼에서는 PyPDF2를 사용하여 명령줄 인터페이스(CLI) 도구를 만들고 클릭하여 .venv 및 .git과 같은 특정 디렉터리를 제외하고 디렉터리(하위 디렉터리 포함)에 있는 모든 PDF 파일을 병합합니다.
시작하기 전에 다음 사항을 확인하세요.
필수 라이브러리:
pip install PyPDF2
CLI 생성을 위한 설치 클릭:
pip install click
다음은 CLI 도구의 전체 코드입니다.
import click from pathlib import Path from PyPDF2 import PdfMerger import os EXCLUDED_DIRS = {".venv", ".git"} @click.command() @click.argument("directory", type=click.Path(exists=True, file_okay=False, path_type=Path)) @click.argument("output_file", type=click.Path(dir_okay=False, writable=True, path_type=Path)) def merge_pdfs(directory: Path, output_file: Path): """ Merge all PDF files from DIRECTORY and its subdirectories into OUTPUT_FILE, excluding specified directories like .venv and .git. """ # Initialize the PdfMerger merger = PdfMerger() # Walk through the directory tree, including the base directory for root, dirs, files in os.walk(directory): # Exclude specific directories dirs[:] = [d for d in dirs if d not in EXCLUDED_DIRS] # Convert the root to a Path object current_dir = Path(root) click.echo(f"Processing directory: {current_dir}") # Collect PDF files in the current directory pdf_files = sorted(current_dir.glob("*.pdf")) if not pdf_files: click.echo(f"No PDF files found in {current_dir}") continue # Add PDF files from the current directory for pdf in pdf_files: click.echo(f"Adding {pdf}...") merger.append(str(pdf)) # Write the merged output file output_file.parent.mkdir(parents=True, exist_ok=True) merger.write(str(output_file)) merger.close() click.echo(f"All PDFs merged into {output_file}") if __name__ == "__main__": merge_pdfs()
디렉터리 순회:
PDF 파일 모음:
PDF 병합:
CLI 통합:
코드를 파일(예: merge_pdfs.py)에 저장합니다. 다음과 같이 터미널에서 실행하세요:
python merge_pdfs.py /path/to/directory /path/to/output.pdf
다음과 같은 디렉토리 구조가 있다고 가정합니다:
/documents ├── file1.pdf ├── subdir1 │ ├── file2.pdf ├── subdir2 │ ├── file3.pdf ├── .git │ ├── ignored_file.pdf
다음과 같이 도구를 실행하세요.
python merge_pdfs.py /documents /merged.pdf
이렇게 하면 file1.pdf, file2.pdf 및 file3.pdf가 merged.pdf로 병합되고 .git은 건너뜁니다.
재귀 병합:
디렉터리 제외:
정렬된 병합:
CLI 단순성:
대용량 파일:
PDF 호환성:
사용자 정의 제외:
이 튜토리얼에서는 Python을 사용하여 디렉토리 구조에서 PDF를 자동으로 병합하는 방법을 보여줍니다. 제공된 CLI 도구는 유연하며 보다 복잡한 워크플로에 맞게 조정할 수 있습니다. 직접 사용해보시고 어떤 효과가 있는지 알려주세요!
즐거운 코딩하세요! ?
위 내용은 Python을 사용하여 재귀적으로 PDF 병합의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!