이 글은 Ubuntu에서 Python을 사용하여 doc 및 docx 문서를 읽는 콘텐츠 방법을 주로 소개합니다. 이제는 필요한 친구들이 참조할 수 있도록 공유합니다.
docx 문서 읽기
사용된 패키지는 python-docx입니다
1. python-docx 패키지를 설치하세요
sudo pip install python-docx
2. 데이터를 읽으려면 python-docx 패키지를 사용하세요
#encoding:utf8 import docx doc = docx.Document('test.docx') docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) #print(docText)
python-docx 처리됨 문서 문서의 경우 문서 문서의 내용을 읽으려면 안티워드 도구를 사용해야 합니다.
문서 읽기
1. 홈페이지에 접속하여 안티워드를 다운로드 받으세요.
2. 다운로드 후 압축을 풀고 추출된 폴더에서 make 및 make install 명령을 실행합니다.
3. 안티워드를 사용하여 문서 내용 읽기
#encoding:utf8 import subprocess word = 'test.doc' output = subprocess.check_output(['antiword',word]) print(output)
관련 권장 사항:
dat 파일의 Python 일괄 처리 및 과학적인 계산 방법을 기반으로
위 내용은 Python을 사용하여 Ubuntu에서 doc 및 docx 문서의 내용을 읽는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!