利用python將pdf輸出為txt的實例-Python教學-PHP中文網

首頁

後端開發

Python教學

利用python將pdf輸出為txt的實例

不言

Apr 23, 2018 pm 03:16 PM

python 實例輸出

下面為大家分享一篇利用python將pdf輸出為txt的實例講解，具有很好的參考價值，希望對大家有幫助。一起來看看吧

一個禮拜前一個同學問我這個事情，由於之前在參加華為的比賽，所以賽後看了一下，據說需要用到pdfminer這個包。於是安裝了一下，安裝過程很簡單：

sudo pip install pdfminer;

登入後複製

#中間也沒有任何的報錯。至於如何調用，本人也沒有很好的研究過pdfminer這個函式庫，於是開始了百度…

官方文件：##http://www.unixuser .org/~euske/python/pdfminer/index.html

完全使用python編寫。（適用於2.4或更新版本）

解析，分析，並轉換成PDF文件。

PDF-1.7規範的支持。（幾乎）

中日韓語言和垂直書寫腳本支援。

各種字型類型（Type1、TrueType、Type3，和CID）的支援。

基本加密（RC4）的支援。

PDF與HTML轉換。

綱要（TOC）的提取。

標籤內容提取。

透過分組文字區塊重建原始的佈局。

一些基本的類別

PDFParser：從一個檔案中取得資料

PDFDocument：儲存取得的數據，和PDFParser是相互關聯的

PDFPageInterpreter處理頁面內容

PDFDevice將其翻譯成你需要的格式

PDFResourceManager用於儲存共享資源，如字體或圖像。

簡單的實作

#讀取test.pdf輸出為output.txt:

# -*- coding: utf-8 -*-  
from pdfminer.pdfparser import PDFParser 
from pdfminer.pdfdocument import PDFDocument 
from pdfminer.pdfpage import PDFPage 
from pdfminer.pdfpage import PDFTextExtractionNotAllowed 
from pdfminer.pdfinterp import PDFResourceManager 
from pdfminer.pdfinterp import PDFPageInterpreter 
from pdfminer.pdfdevice import PDFDevice 
from pdfminer.layout import * 
from pdfminer.converter import PDFPageAggregator 
import os 
fp = open(&#39;test.pdf&#39;, &#39;rb&#39;) 
#来创建一个pdf文档分析器 
parser = PDFParser(fp) 
#创建一个PDF文档对象存储文档结构 
document = PDFDocument(parser) 
# 检查文件是否允许文本提取 
if not document.is_extractable: 
 raise PDFTextExtractionNotAllowed 
else: 
 # 创建一个PDF资源管理器对象来存储共赏资源 
 rsrcmgr=PDFResourceManager() 
 # 设定参数进行分析 
 laparams=LAParams() 
 # 创建一个PDF设备对象 
 # device=PDFDevice(rsrcmgr) 
 device=PDFPageAggregator(rsrcmgr,laparams=laparams) 
 # 创建一个PDF解释器对象 
 interpreter=PDFPageInterpreter(rsrcmgr,device) 
 # 处理每一页 
 for page in PDFPage.create_pages(document): 
  interpreter.process_page(page) 
  # 接受该页面的LTPage对象 
  layout=device.get_result() 
  for x in layout: 
   if(isinstance(x,LTTextBoxHorizontal)): 
    with open(&#39;output.txt&#39;,&#39;a&#39;) as f: 
     f.write(x.get_text().encode(&#39;utf-8&#39;)+&#39;\n&#39;)

登入後複製

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7538

CakePHP 教程

1380

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

PHP和Python：代碼示例和比較 Apr 15, 2025 am 12:07 AM

PHP和Python各有優劣，選擇取決於項目需求和個人偏好。 1.PHP適合快速開發和維護大型Web應用。 2.Python在數據科學和機器學習領域佔據主導地位。

CentOS上如何進行PyTorch模型訓練 Apr 14, 2025 pm 03:03 PM

在CentOS系統上高效訓練PyTorch模型，需要分步驟進行，本文將提供詳細指南。一、環境準備：Python及依賴項安裝:CentOS系統通常預裝Python，但版本可能較舊。建議使用yum或dnf安裝Python3併升級pip：sudoyumupdatepython3(或sudodnfupdatepython3)，pip3install--upgradepip。 CUDA與cuDNN(GPU加速):如果使用NVIDIAGPU，需安裝CUDATool

CentOS上PyTorch的GPU支持情況如何 Apr 14, 2025 pm 06:48 PM

在CentOS系統上啟用PyTorchGPU加速，需要安裝CUDA、cuDNN以及PyTorch的GPU版本。以下步驟將引導您完成這一過程：CUDA和cuDNN安裝確定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA顯卡支持的CUDA版本。例如，您的MX450顯卡可能支持CUDA11.1或更高版本。下載並安裝CUDAToolkit:訪問NVIDIACUDAToolkit官網，根據您顯卡支持的最高CUDA版本下載並安裝相應的版本。安裝cuDNN庫:前

docker原理詳解 Apr 14, 2025 pm 11:57 PM

Docker利用Linux內核特性，提供高效、隔離的應用運行環境。其工作原理如下：1. 鏡像作為只讀模板，包含運行應用所需的一切；2. 聯合文件系統（UnionFS）層疊多個文件系統，只存儲差異部分，節省空間並加快速度；3. 守護進程管理鏡像和容器，客戶端用於交互；4. Namespaces和cgroups實現容器隔離和資源限制；5. 多種網絡模式支持容器互聯。理解這些核心概念，才能更好地利用Docker。

Python vs. JavaScript：社區，圖書館和資源 Apr 15, 2025 am 12:16 AM

Python和JavaScript在社區、庫和資源方面的對比各有優劣。 1)Python社區友好，適合初學者，但前端開發資源不如JavaScript豐富。 2)Python在數據科學和機器學習庫方面強大，JavaScript則在前端開發庫和框架上更勝一籌。 3)兩者的學習資源都豐富，但Python適合從官方文檔開始，JavaScript則以MDNWebDocs為佳。選擇應基於項目需求和個人興趣。

CentOS下PyTorch版本怎麼選 Apr 14, 2025 pm 02:51 PM

在CentOS下選擇PyTorch版本時，需要考慮以下幾個關鍵因素：1.CUDA版本兼容性GPU支持：如果你有NVIDIAGPU並且希望利用GPU加速，需要選擇支持相應CUDA版本的PyTorch。可以通過運行nvidia-smi命令查看你的顯卡支持的CUDA版本。 CPU版本：如果沒有GPU或不想使用GPU，可以選擇CPU版本的PyTorch。 2.Python版本PyTorch

minio安裝centos兼容性 Apr 14, 2025 pm 05:45 PM

MinIO對象存儲：CentOS系統下的高性能部署MinIO是一款基於Go語言開發的高性能、分佈式對象存儲系統，與AmazonS3兼容。它支持多種客戶端語言，包括Java、Python、JavaScript和Go。本文將簡要介紹MinIO在CentOS系統上的安裝和兼容性。 CentOS版本兼容性MinIO已在多個CentOS版本上得到驗證，包括但不限於：CentOS7.9:提供完整的安裝指南，涵蓋集群配置、環境準備、配置文件設置、磁盤分區以及MinI

centos如何安裝nginx Apr 14, 2025 pm 08:06 PM

CentOS 安裝 Nginx 需要遵循以下步驟：安裝依賴包，如開發工具、pcre-devel 和 openssl-devel。下載 Nginx 源碼包，解壓後編譯安裝，並指定安裝路徑為 /usr/local/nginx。創建 Nginx 用戶和用戶組，並設置權限。修改配置文件 nginx.conf，配置監聽端口和域名/IP 地址。啟動 Nginx 服務。需要注意常見的錯誤，如依賴問題、端口衝突和配置文件錯誤。性能優化需要根據具體情況調整，如開啟緩存和調整 worker 進程數量。

See all articles

利用python將pdf輸出為txt的實例

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題