首頁 > 後端開發 > Python教學 > 怎麼用Python批次擷取PDF中的信息

怎麼用Python批次擷取PDF中的信息

PHPz
發布: 2024-03-02 09:25:16
轉載
668 人瀏覽過

怎麼用Python批次擷取PDF中的信息

要使用python批次擷取pdf中的信息,可以使用Python的一個函式庫叫做PyPDF2。以下是一個簡單的例子,可以幫助你開始擷取PDF中的文字資訊:

首先,你需要安裝PyPDF2庫。可以使用以下命令在終端機或命令提示字元中安裝該庫:

pip install PyPDF2
登入後複製

然後,你可以使用以下程式碼來提取PDF中的文字資訊:

import PyPDF2

def extract_text_from_pdf(pdf_path):
with open(pdf_path, 'rb') as file:
pdf = PyPDF2.PdfFileReader(file)
text = ""
for page_number in range(pdf.getNumPages()):
page = pdf.getPage(page_number)
text += page.extractText()
return text

# 批量提取PDF中的文本信息
pdf_folder = "pdf文件夹路径"
output_folder = "输出文件夹路径"

import os

for filename in os.listdir(pdf_folder):
if filename.endswith(".pdf"):
pdf_path = os.path.join(pdf_folder, filename)
text = extract_text_from_pdf(pdf_path)

output_path = os.path.join(output_folder, f"{filename}.txt")
with open(output_path, 'w', encoding='utf-8') as file:
file.write(text)
登入後複製

在上面的程式碼中,pdf_folder是包含PDF檔案的資料夾的路徑,output_folder是將提取的文字輸出到的資料夾路徑。程式碼將遍歷資料夾中的所有PDF文件,提取每個文件的文字內容,並將提取的文字儲存到相應的文字檔案中。

請注意,程式碼只能提取PDF中的純文字訊息,如果PDF中包含圖像或表格等非文字內容,則該程式碼可能無法提取或正確提取。

以上是怎麼用Python批次擷取PDF中的信息的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:lsjlt.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板