Ubuntu下使用python讀取doc和docx文件的內容方法

不言
發布: 2018-05-08 14:18:12
原創
3104 人瀏覽過

這篇文章主要介紹了關於Ubuntu下使用python讀取doc和docx文檔的內容方法,有著一定的參考價值,現在分享給大家,有需要的朋友可以參考一下

##讀取docx文件

使用的套件是python-docx

1. 安裝python-docx套件

sudo pip install python-docx
登入後複製

2. 使用python-docx套件讀取資料

#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)
登入後複製

python-docx這個套件是不能處理doc文件的,要讀取doc文檔內容的話需要使用antiword這個工具。

讀取doc文件

1. 到網站下載antiword。


2. 下載完畢後解壓,在解壓縮得到的資料夾中依序執行make和make install指令。


3. 使用antiword讀取doc文件內容

#encoding:utf8 
import subprocess 
word = 'test.doc' 
output = subprocess.check_output(['antiword',word]) 
print(output)
登入後複製

##相關推薦:


#基於python批次處理dat檔案及科學計算的方法

用python處理MS Word的實例

以上是Ubuntu下使用python讀取doc和docx文件的內容方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!