이 기사에서는 실용적인 Python 사무 자동화 스크립트 "Python을 사용하여 영어 Word 문서 일괄 번역 및 형식 보존"을 공유합니다. 최종 효과는 일부 유료보다 훨씬 좋습니다. 소프트웨어! 먼저 구체적인 업무 내용을 살펴보겠습니다.
나는 외국어 문서를 많이 가지고 있는데(이 경우 5 문서 test1.docx
test2.docx
등을 예로 들겠습니다) 그 중 하나는 다음과 같습니다. :
기본 요구 사항 : "이 문서의 모든 내용을 중국어로 일괄 번역하고 새 파일로 전송" , 효과는 다음과 같습니다.
고급 요구 사항 : 기본 요구 사항은 다음과 같습니다. "원본 문서의 형식을 유지"라는 요구 사항을 충족하면 효과는 다음과 같습니다.
이 요구 사항의 핵심은 Translation 전략은 네트워크의 번역 API를 사용하는 것입니다. 여기에서는 Baidu Translation Open Platform을 권장합니다. 동시 사용자 수를 고려하지 않으면 무료이며 문자가 없는 표준 버전을 사용할 수 있습니다. 한계!
“바이두 번역 오픈 플랫폼:
”http: //api.fanyi.baidu.com/api/trans/product/index
http://api.fanyi.baidu.com/api/trans/product/index
在使用百度的通用翻译 API 之前需要完成以下工作:
http://api.fanyi.baidu.com
);完成后在个人页面在即可看到 ID 和密钥,这个很重要!下面给出整理好的通用翻译 API 的 demo,已经对输出做简单修改,代码拿走就能用!
可以看到,测试内容准确的被翻译出来,注意如果需要多次访问 API,免费版有并发数和时间限制,可以用 time
http://api.fanyi.baidu.com 코드>) ;
테스트 내용이 정확하게 번역된 것을 확인할 수 있습니다. API에 여러 번 접속해야 하는 경우 무료 버전에는 동시성 및 시간 제한이 있으니 참고하세요. , time
모듈은 다음 시간 동안 절전 모드로 유지됩니다. 1초
페이지 스타일에는 여백, 방향, 높이, 너비 등만 포함하면 됩니다. 원본 문서에서 볼 수 있듯이 좁은 여백이 채택됩니다. 하지만 좁은 여백의 네 방향을 설정하는 방법을 알 필요는 없습니다. 다음과 같이 코드에서 이전 문서와 새 문서의 가변 전송만 제시하면 됩니다.
단락 스타일에는 정렬, 들여쓰기, 간격 등이 포함되며 원본 문서의 단락 뒤에 들여쓰기되고 제목이 중앙에 배치됩니다. 이러한 설정은 변수 전달에서 잘 수행할 수 있습니다. 원본 문서에 설정되지 않은 변수 값이 None
글꼴 크기, 굵게, 기울임꼴, 색상 등의 스타일 조정을 위해 채택되는 전략은 다음과 같습니다. 빈 목록을 만들고 원본 문서를 탐색합니다. 각 단락의 각 텍스트 블록에 대해 해당 속성을 가져와 해당 목록에 배치합니다. 동일한 단락에 대해 텍스트 블록 속성이 가장 많은 옵션이 해당 단락에 할당됩니다. 번역된 문서(예: 단락 전체 또는 대부분) 텍스트가 굵게 표시되면 번역 후 해당 단락의 모든 텍스트 블록이 굵게 설정됩니다. NLP에 관심 있는 독자들은 영어 문서의 특정 특정 단어의 스타일 수정을 높은 수준으로 복원하여 번역 문서에 반영해 볼 수 있습니다
위 코드에는 글꼴 설정이 포함되어 있지 않습니다. 변경할 필요가 없기 때문입니다. 영어 글꼴이 중국어 문서에 전달됩니다. 중국어 글꼴 설정은 이전 기사에서 언급한 적이 있습니다. 코드를 직접 확인하세요.from docx.oxml.ns import qn run.font.name = '微软雅黑' r = run._element.rPr.rFonts r.set(qn('w:eastAsia'), '微软雅黑')
glob
模块批处理框架可获取某个文件的绝对路径python-docx
完成 Word 文件实例化后对段落进行解析导入需要的模块,除翻译 demo 中需要的库外还需要 glob
库批量获取文件、python-docx
读取文件、time
模块控制访问并发。为什么要 os
模块见下文:
import requests import random import json from hashlib import md5 import time from docx import Document import glob import os
对原 demo 的部分内容进行保留,涉及到 query
参数的代码需要移动到后面的循环中。保留的部分:
效果如下
获取到段落文本后,可以将段落文本赋值给 query
参数,调用 API demo 的后续代码。输出结果的同时用 add_paragraph
将结果写入新文档:
最后保存成新文件,期望命名为 原文件名_translated 的形式,可用 os.path.basename
方法获取并经字符串拼接达到目的:
wordfile_new.save(path + r'\\' + os.path.basename(file)[:-5] + '_translated.docx')
单个文件操作完成后将读取和创建文件的代码块放到批处理框架内:
完成了上面的内容后,基本需求就完成了。根据我们梳理的对样式的修改知识,再把样式调整的代码加进来就行了,最终完整代码如下:
代码运行完毕后得到五个新的翻译后文件
翻译效果如下,可以看到英文被翻译成中文,并且样式大部分保留!
至此,所有文档都被成功翻译,当然这是机器翻译的,具体应用时还需要对关键部分进一步人工调整,不过整体来说还是一次成功的Python办公自动化尝试!
위 내용은 Python으로 작성된 문서 일괄 번역 도구, 유료 소프트웨어보다 효과가 더 좋습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!