Ubuntu で Python を使用して doc および docx ドキュメントのコンテンツを読み取る方法

不言
リリース: 2018-05-08 14:18:12
オリジナル
3104 人が閲覧しました

この記事では主に、Ubuntu で Python を使用して doc および docx ドキュメントを読み取る方法を紹介します。これは、必要な友人に参照してもらえるように共有します

使用するパッケージは python-docx です

1. python-docx パッケージをインストールします

sudo pip install python-docx
ログイン後にコピー

2. python-docx パッケージを使用してデータを読み取ります

このパッケージはできません処理済み ドキュメント ドキュメントの場合、アンチワード ツールを使用してドキュメント ドキュメントのコンテンツを読み取る必要があります。

ドキュメントドキュメントを読む

1. Web サイトにアクセスして、antiword をダウンロードします。

2. ダウンロード後、解凍し、解凍したフォルダーで make および make install コマンドを実行します。


3. ドキュメント文書の内容を読み取るためにアンチワードを使用します


#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)
ログイン後にコピー

関連する推奨事項:

Python による dat ファイルのバッチ処理と科学的計算方法に基づく

Python を使用した処理の例MS Word

以上がUbuntu で Python を使用して doc および docx ドキュメントのコンテンツを読み取る方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!