Cet article présente principalement la méthode d'utilisation de python pour lire le contenu des documents doc et docx sous Ubuntu. Il a une certaine valeur de référence. Maintenant, je le partage avec vous. Les amis dans le besoin peuvent s'y référer
. Lire le document docx
Le package utilisé est python-docx
1 Installez le package python-docx
sudo pip install python-docx
#encoding:utf8 import docx doc = docx.Document('test.docx') docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) #print(docText)
Lire le document doc
1. Allez sur le site pour télécharger antiword.#encoding:utf8 import subprocess word = 'test.doc' output = subprocess.check_output(['antiword',word]) print(output)
Méthodes de traitement par lots de fichiers de données et de calculs scientifiques basés sur python
Instances d'utilisation de python pour traiter MS Word
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!