用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?
#本文將分享一個實用的Python辦公室自動化腳本「利用Python批量翻譯英文Word文件並保留格式」,最終效果甚至比部分收費的軟體還要好!先來看看具體的工作內容。
一、需求描述
手上有大量外文文件(本案例以5份為例,分別命名為test1 .docx
test2.docx
以此類推),其中一份如下:
基本需求:「批次將這些文檔的內容全部翻譯成中文,並轉存到新的文件中”,效果如下:
#高級需求:基本需求滿足的同時,要求「保留原始文檔的格式」,效果如下:
二、邏輯梳理
1 . 翻譯API
本需求的核心是翻譯,策略是利用網路的翻譯API,這裡推薦百度翻譯開放平台,不考慮並發數的話可以用標準版,免費使用不限字元量!
「百度翻譯開放平台:
」http://api.fanyi.baidu.com/api/trans/product/index
在使用百度的通用翻譯API 之前需要完成以下工作:
使用百度帳號登入百度翻譯開放平台( http://api.fanyi.baidu.com
);#註冊成為開發者,取得APPID; - #進行開發者認證(如僅需標準版可跳過);

參考技術文檔和Demo編寫程式碼
完成後在個人頁面在可以看到ID 和金鑰,這很重要!
下面給出整理好的通用翻譯 API 的 demo,已經對輸出做簡單修改,程式碼拿走就能用!
可以看到,測試內容準確的被翻譯出來,注意如果需要多次存取API,免費版有並發數和時間限制,可以用time
模組睡眠一秒鐘
2. 格式修改
######進階需求的困難就是保留格式,簡單來說###原文件的頁面格式和段落格式是什麼,翻譯後對應的部分是什麼。 #########基於上述的邏輯關係,只需要取得原始文檔的對應內容再賦值給新翻譯的文檔即可。 (暫時只能滿足頁面設定和段落設定的統一,針對一段特定字詞的格式修改,確保精確性需要基於自然語言處理NLP,本文暫不涉及)###2.1 頁面樣式
頁面樣式只要包含邊距、方向、高度、寬度等等,從原始文件可以看到,採取的是窄邊距。但我們無需知道窄邊距四個方向應該如何設置,只需要在程式碼中呈現新舊文檔的變數傳遞即可,具體如下
2.2 段落樣式
段落樣式包含對齊、縮排、間距等等,原始文件中採取了段後縮進,標題是居中對齊。這些設定在變數傳遞中能夠很好完成。如果原文檔中沒有設定的變數值為None
#2.3 文字區塊樣式修改
對於字號、加粗、斜體、顏色等樣式調整,採取的策略是建立空列表,遍歷原文檔每一段每一個文字塊,獲取相應屬性並放到各自的列表中,對同一段而言,其包含的文字區塊屬性最多的選項賦值給翻譯後文件的對應段落(如同一段全部或大部分的文字是加粗,則翻譯後對應段落所有文字區塊均設定為加粗)
對NLP有興趣的讀者可自行嘗試如何高度還原英文文檔中某些特定詞語的樣式修改,並在翻譯後的文檔中體現出來
上面的程式碼不包含對字體的設置,因為沒必要把英文的字體傳遞給中文文檔。對中文字體的設定之前的文章有提到過,比較複雜,直接見程式碼:
from docx.oxml.ns import qn run.font.name = '微软雅黑' r = run._element.rPr.rFonts r.set(qn('w:eastAsia'), '微软雅黑')
#3. 整體實作步驟
現在每個部分操作均以完成,考慮到本例中有多個文件均需要翻譯,故全部邏輯如下:
利用 glob
模块批处理框架可获取某个文件的绝对路径由 python-docx
完成 Word 文件实例化后对段落进行解析解析出的段落文本交给百度通用翻译 API,解析返回的 Json 格式结果(上面的修改 demo 中已经完成了这一步)并重新写入新的文件 同个文件全部解析、翻译并写入新文件后保存文件
三、代码实现
导入需要的模块,除翻译 demo 中需要的库外还需要 glob
库批量获取文件、python-docx
读取文件、time
模块控制访问并发。为什么要 os
模块见下文:
import requests import random import json from hashlib import md5 import time from docx import Document import glob import os
对原 demo 的部分内容进行保留,涉及到 query
参数的代码需要移动到后面的循环中。保留的部分:
效果如下
获取到段落文本后,可以将段落文本赋值给 query
参数,调用 API demo 的后续代码。输出结果的同时用 add_paragraph
将结果写入新文档:
最后保存成新文件,期望命名为 原文件名_translated 的形式,可用 os.path.basename
方法获取并经字符串拼接达到目的:
wordfile_new.save(path + r'\\' + os.path.basename(file)[:-5] + '_translated.docx')

单个文件操作完成后将读取和创建文件的代码块放到批处理框架内:
完成了上面的内容后,基本需求就完成了。根据我们梳理的对样式的修改知识,再把样式调整的代码加进来就行了,最终完整代码如下:
代码运行完毕后得到五个新的翻译后文件
翻译效果如下,可以看到英文被翻译成中文,并且样式大部分保留!
至此,所有文档都被成功翻译,当然这是机器翻译的,具体应用时还需要对关键部分进一步人工调整,不过整体来说还是一次成功的Python办公自动化尝试!
以上是用 Python 寫的文檔批量翻譯工具,效果竟然超越付費軟體?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

PHP主要是過程式編程,但也支持面向對象編程(OOP);Python支持多種範式,包括OOP、函數式和過程式編程。 PHP適合web開發,Python適用於多種應用,如數據分析和機器學習。

PHP適合網頁開發和快速原型開發,Python適用於數據科學和機器學習。 1.PHP用於動態網頁開發,語法簡單,適合快速開發。 2.Python語法簡潔,適用於多領域,庫生態系統強大。

在 Sublime Text 中運行 Python 代碼,需先安裝 Python 插件,再創建 .py 文件並編寫代碼,最後按 Ctrl B 運行代碼,輸出會在控制台中顯示。

PHP起源於1994年,由RasmusLerdorf開發,最初用於跟踪網站訪問者,逐漸演變為服務器端腳本語言,廣泛應用於網頁開發。 Python由GuidovanRossum於1980年代末開發,1991年首次發布,強調代碼可讀性和簡潔性,適用於科學計算、數據分析等領域。

Python更適合初學者,學習曲線平緩,語法簡潔;JavaScript適合前端開發,學習曲線較陡,語法靈活。 1.Python語法直觀,適用於數據科學和後端開發。 2.JavaScript靈活,廣泛用於前端和服務器端編程。

Golang在性能和可擴展性方面優於Python。 1)Golang的編譯型特性和高效並發模型使其在高並發場景下表現出色。 2)Python作為解釋型語言,執行速度較慢,但通過工具如Cython可優化性能。

在 Visual Studio Code(VSCode)中編寫代碼簡單易行,只需安裝 VSCode、創建項目、選擇語言、創建文件、編寫代碼、保存並運行即可。 VSCode 的優點包括跨平台、免費開源、強大功能、擴展豐富,以及輕量快速。

在 Notepad 中運行 Python 代碼需要安裝 Python 可執行文件和 NppExec 插件。安裝 Python 並為其添加 PATH 後,在 NppExec 插件中配置命令為“python”、參數為“{CURRENT_DIRECTORY}{FILE_NAME}”,即可在 Notepad 中通過快捷鍵“F6”運行 Python 代碼。
