이 파이썬 스크립트는 PDF 파일의 단어와 문자를 효율적으로 계산하여 Newline 문자를 처리하는 데 유연성을 제공합니다. 기능과 사용법을 살펴 보겠습니다.
파이썬으로 PDF 컨텐츠 분석
PDFS에서 텍스트 데이터를 추출하고 단어/문자 수를 수행하는 것은 Python의 PyPDF2
라이브러리를 사용하여 쉽게 달성됩니다. 이 스크립트는 PyPDF2
활용하여 PDF 파일을 처리하여 포괄적 인 분석 보고서를 제공합니다.
스크립트 고장 :
스크립트 pdfcwcount.py
는 세 가지 핵심 기능으로 구성됩니다.
extract_text_from_pdf(file_path)
: 이 함수는 지정된 pdf 파일을 읽고 각 페이지에서 텍스트를 추출하고 단일 문자열로 연결합니다. FileNotFoundError
예외를 우아하게 처리합니다.
count_words_in_text(text)
: 이 함수는 입력 텍스트 문자열을 단어로 나누고 (공백을 구분 자로 사용) 단어 수를 반환합니다.
count_characters_in_text(text, include_newlines=True)
: 이 함수는 문자를 계산합니다. include_newlines
매개 변수는 Newline 문자 ( \n
)가 카운트에 포함되어 있는지에 대한 제어를 제공합니다.
스크립트의 주요 섹션은 argparse
모듈을 사용하여 명령 줄 인수를 처리하여 사용자가 PDF 파일 경로를 지정할 수 있습니다. 텍스트를 추출 한 후 단어와 문자 수 (신성이 유무에 관계없이)를 계산하고 형식화 된 보고서를 제시합니다.
설치 및 사용 :
PYPDF2 설치 : PIP 사용 : pip install PyPDF2
스크립트 실행 : 터미널에서 스크립트를 실행하여 PDF 파일 경로를 인수로 제공합니다.
Python pdfcwcount.py/path/to/your/file.pdf
pdf 파일의 실제 경로로 /path/to/your/file.pdf
교체하십시오.
예제 출력 :
스크립트는 다음과 유사한 보고서를 생성합니다.
<code>--- PDF File Analysis Report --- File: /path/to/your/file.pdf Total Words: 123 Total Characters (including newlines): 789 Total Characters (excluding newlines): 750 -----------------------------</code>
결론:
이 파이썬 스크립트는 PDF 파일의 텍스트 내용을 분석하기위한 강력하고 효율적인 솔루션을 제공합니다. 명확한 구조 및 명령 줄 인터페이스는 다양한 요구에 사용자 친화적이고 적응할 수있게합니다. Newline 문자를 포함 시키거나 제외하는 옵션은 다양한 분석 요구 사항에 대한 유연성을 추가합니다.
위 내용은 Linux에서 Python을 사용하여 PDF 파일의 문자 및 단어 계산의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!