怎麼用兩行Python程式碼實現pdf轉word功能-Python教學-PHP中文網

pip install --index https://pypi.mirrors.ustc.edu.cn/simple/ python-office

登入後複製

" >

pip install --index https://pypi.mirrors.ustc.edu.cn/simple/ python-office

登入後複製

首頁

後端開發

Python教學

怎麼用兩行Python程式碼實現pdf轉word功能

王林

Apr 28, 2023 pm 06:25 PM

word python pdf

##一、安裝依賴套件

pip install --index https://pypi.mirrors.ustc.edu.cn/simple/ python-office

登入後複製

二、pdf轉word

2.1程式碼實作

import office
office.pdf.pdf2docx(file_path = &#39;test.pdf&#39;)

登入後複製

運行過程如下：

[1/4]正在開啟文件...
[INFO][2/4]正在分析文件...
[警告]「建立」時間戳似乎很低;作為unix時間戳
[警告]「修改」時間戳似乎很低；作為unix時間戳
[警告]「創建」時間戳似乎非常低；作為unix時間戳
[警告]「修改」時間戳似乎很低；作為unix時間戳
[INFO] [3/4] 解析頁...
[INFO] (1/9) 第1頁
[INFO] (2/9) 第2頁
[訊息] (3/9) 第3 頁
[訊息] (4/9) 第4 頁
[訊息] (5/9) 第5 頁
[訊息] (6/9 ) 第6 頁
[INFO] (7/9) 第7頁
[INFO] (8/9) 第8頁
[INFO] (9/9) 第9頁
[ INFO] [4/4] 建立頁面...
[資訊] (1/9) 第1 頁
[資訊] (2/9) 第2 頁
[資訊] (3/9 ) 第3 頁
[訊息] (4 /9) 第4 頁
[訊息] (5/9) 第5 頁
[訊息] (6/9) 第6 頁
[訊息] (7/9) 第7 頁
[訊息] (8/9) 第8 頁
[訊息] (9/9) 第9 頁
[訊息] 在1.30 秒內終止。

進程已完成，退出程式碼為0

2.2 pdf內容

怎麼用兩行Python程式碼實現pdf轉word功能

#2.3轉換後的單字

怎麼用兩行Python程式碼實現pdf轉word功能

由上可見，效果還不錯。

補充

#除了以上的方法，小編還為大家整理了更多Python實現的PDF轉Word方法，需要的可以參考

方法一：

import os
from configparser import ConfigParser
from io import StringIO
from io import open
from concurrent.futures import ProcessPoolExecutor

from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from docx import Document


def read_from_pdf(file_path):
    with open(file_path, &#39;rb&#39;) as file:
        resource_manager = PDFResourceManager()
        return_str = StringIO()
        lap_params = LAParams()

        device = TextConverter(
            resource_manager, return_str, laparams=lap_params)
        process_pdf(resource_manager, device, file)
        device.close()

        content = return_str.getvalue()
        return_str.close()
        return content


def save_text_to_word(content, file_path):
    doc = Document()
    for line in content.split(&#39;\n&#39;):
        paragraph = doc.add_paragraph()
        paragraph.add_run(remove_control_characters(line))
    doc.save(file_path)


def remove_control_characters(content):
    mpa = dict.fromkeys(range(32))
    return content.translate(mpa)


def pdf_to_word(pdf_file_path, word_file_path):
    content = read_from_pdf(pdf_file_path)
    save_text_to_word(content, word_file_path)


def main():
    config_parser = ConfigParser()
    config_parser.read(&#39;config.cfg&#39;)
    config = config_parser[&#39;default&#39;]

    tasks = []
    with ProcessPoolExecutor(max_workers=int(config[&#39;max_worker&#39;])) as executor:
        for file in os.listdir(config[&#39;pdf_folder&#39;]):
            extension_name = os.path.splitext(file)[1]
            if extension_name != &#39;.pdf&#39;:
                continue
            file_name = os.path.splitext(file)[0]
            pdf_file = config[&#39;pdf_folder&#39;] + &#39;/&#39; + file
            word_file = config[&#39;word_folder&#39;] + &#39;/&#39; + file_name + &#39;.docx&#39;
            print(&#39;正在处理: &#39;, file)
            result = executor.submit(pdf_to_word, pdf_file, word_file)
            tasks.append(result)
    while True:
        exit_flag = True
        for task in tasks:
            if not task.done():
                exit_flag = False
        if exit_flag:
            print(&#39;完成&#39;)
            exit(0)


if __name__ == &#39;__main__&#39;:
    main()

登入後複製

方法二：

加密過的PDF轉字

#-*- coding: UTF-8 -*- 
#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
import importlib
importlib.reload(sys)
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import *
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
import os
#设置工作目录文件夹
os.chdir(r&#39;c:/users/dicey/desktop/codes/pdf-docx&#39;)
#解析pdf文件函数
def parse(pdf_path):
 fp = open(&#39;diya.pdf&#39;, &#39;rb&#39;) # 以二进制读模式打开
 # 用文件对象来创建一个pdf文档分析器
 parser = PDFParser(fp)
 # 创建一个PDF文档
 doc = PDFDocument()
 # 连接分析器 与文档对象
 parser.set_document(doc)
 doc.set_parser(parser)
 # 提供初始化密码
 # 如果没有密码 就创建一个空的字符串
 doc.initialize()
 # 检测文档是否提供txt转换，不提供就忽略
 if not doc.is_extractable:
  raise PDFTextExtractionNotAllowed
 else:
  # 创建PDf 资源管理器 来管理共享资源
  rsrcmgr = PDFResourceManager()
  # 创建一个PDF设备对象
  laparams = LAParams()
  device = PDFPageAggregator(rsrcmgr, laparams=laparams)
  # 创建一个PDF解释器对象
  interpreter = PDFPageInterpreter(rsrcmgr, device)
  # 用来计数页面，图片，曲线，figure，水平文本框等对象的数量
  num_page, num_image, num_curve, num_figure, num_TextBoxHorizontal = 0, 0, 0, 0, 0
  # 循环遍历列表，每次处理一个page的内容
  for page in doc.get_pages(): # doc.get_pages() 获取page列表
   num_page += 1 # 页面增一
   interpreter.process_page(page)
   # 接受该页面的LTPage对象
   layout = device.get_result()
   for x in layout:
    if isinstance(x,LTImage): # 图片对象
     num_image += 1
    if isinstance(x,LTCurve): # 曲线对象
     num_curve += 1
    if isinstance(x,LTFigure): # figure对象
     num_figure += 1
    if isinstance(x, LTTextBoxHorizontal): # 获取文本内容
     num_TextBoxHorizontal += 1 # 水平文本框对象增一
     # 保存文本内容
     with open(r&#39;test2.doc&#39;, &#39;a&#39;,encoding=&#39;utf-8&#39;) as f: #生成doc文件的文件名及路径
      results = x.get_text()
      f.write(results)
      f.write(&#39;\n&#39;)
  print(&#39;对象数量：\n&#39;,&#39;页面数：%s\n&#39;%num_page,&#39;图片数：%s\n&#39;%num_image,&#39;曲线数：%s\n&#39;%num_curve,&#39;水平文本框：%s\n&#39;
    %num_TextBoxHorizontal)

if __name__ == &#39;__main__&#39;:
 pdf_path = r&#39;diya.pdf&#39; #pdf文件路径及文件名
 parse(pdf_path)

登入後複製

以上是怎麼用兩行Python程式碼實現pdf轉word功能的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1669

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1273

C# 教程

1256

Related knowledge

PHP和Python：解釋了不同的範例 Apr 18, 2025 am 12:26 AM

PHP主要是過程式編程，但也支持面向對象編程（OOP）；Python支持多種範式，包括OOP、函數式和過程式編程。 PHP適合web開發，Python適用於多種應用，如數據分析和機器學習。

在PHP和Python之間進行選擇：指南 Apr 18, 2025 am 12:24 AM

PHP適合網頁開發和快速原型開發，Python適用於數據科學和機器學習。 1.PHP用於動態網頁開發，語法簡單，適合快速開發。 2.Python語法簡潔，適用於多領域，庫生態系統強大。

sublime怎麼運行代碼python Apr 16, 2025 am 08:48 AM

在 Sublime Text 中運行 Python 代碼，需先安裝 Python 插件，再創建 .py 文件並編寫代碼，最後按 Ctrl B 運行代碼，輸出會在控制台中顯示。

PHP和Python：深入了解他們的歷史 Apr 18, 2025 am 12:25 AM

PHP起源於1994年，由RasmusLerdorf開發，最初用於跟踪網站訪問者，逐漸演變為服務器端腳本語言，廣泛應用於網頁開發。 Python由GuidovanRossum於1980年代末開發，1991年首次發布，強調代碼可讀性和簡潔性，適用於科學計算、數據分析等領域。

Python vs. JavaScript：學習曲線和易用性 Apr 16, 2025 am 12:12 AM

Python更適合初學者，學習曲線平緩，語法簡潔；JavaScript適合前端開發，學習曲線較陡，語法靈活。 1.Python語法直觀，適用於數據科學和後端開發。 2.JavaScript靈活，廣泛用於前端和服務器端編程。

Golang vs. Python：性能和可伸縮性 Apr 19, 2025 am 12:18 AM

Golang在性能和可擴展性方面優於Python。 1)Golang的編譯型特性和高效並發模型使其在高並發場景下表現出色。 2)Python作為解釋型語言，執行速度較慢，但通過工具如Cython可優化性能。

vscode在哪寫代碼 Apr 15, 2025 pm 09:54 PM

在 Visual Studio Code（VSCode）中編寫代碼簡單易行，只需安裝 VSCode、創建項目、選擇語言、創建文件、編寫代碼、保存並運行即可。 VSCode 的優點包括跨平台、免費開源、強大功能、擴展豐富，以及輕量快速。

notepad 怎麼運行python Apr 16, 2025 pm 07:33 PM

在 Notepad 中運行 Python 代碼需要安裝 Python 可執行文件和 NppExec 插件。安裝 Python 並為其添加 PATH 後，在 NppExec 插件中配置命令為“python”、參數為“{CURRENT_DIRECTORY}{FILE_NAME}”，即可在 Notepad 中通過快捷鍵“F6”運行 Python 代碼。

See all articles

怎麼用兩行Python程式碼實現pdf轉word功能

import office office.pdf.pdf2docx(file_path = 'test.pdf')
登入後複製

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題

怎麼用兩行Python程式碼實現pdf轉word功能

pip install --index https://pypi.mirrors.ustc.edu.cn/simple/ python-office登入後複製

import office office.pdf.pdf2docx(file_path = &#39;test.pdf&#39;)登入後複製

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題

pip install --index https://pypi.mirrors.ustc.edu.cn/simple/ python-office
登入後複製

import office office.pdf.pdf2docx(file_path = 'test.pdf')
登入後複製