Durch das Extrahieren von Inhalten aus Word-Dokumenten können wir diese für andere Vorgänge verwenden, z. B. zum Speichern von Inhalten in Datenbanken, zum Importieren von Inhalten in andere Programme, zum Training künstlicher Intelligenz und zum Erstellen anderer Dokumente. Spire.Doc für Python macht es einfach, Text und Bilder aus Word-Dokumenten zu extrahieren, ohne viel Kopieren und Einfügen oder komplexe Codierung. In diesem Artikel wird beschrieben, wie Sie mit einfachem Code Text- und Bildinhalte aus einem Word-Dokument extrahieren und speichern .
Bevor Sie mit diesem Tool ein Word-Dokument bearbeiten können, müssen Sie es in ein Projekt importieren. Sie können es von der offiziellen Website von Spire.Doc für Python herunterladen oder direkt mit pip installieren. Der Code sieht so aus:
pip install Spire.Doc pip install plum-dispatch==1.7.4
Musterdokument
Document.GetText() von Spire.Doc für Python kann den gesamten Text in einem Word-Dokument abrufen und als Zeichenfolge zurückgeben. Wir können die zurückgegebene Zeichenfolge zur Speicherung in eine Textdatei schreiben. Die Schritte sind wie folgt:
Code Bespiel
Python
Copy from turtle import st from spire.doc import * from spire.doc.common import * def WriteAllText(fname:str,text:List[str]): fp = open(fname,"w") for s in text: fp.write(s) fp.close() inputFile = "Beispiel.docx" outputFile = "Extrahierter Text.txt" #Document-Objekt erstellen document = Document() #Word-Dokument laden document.LoadFromFile(inputFile) #Text aus Dokument abrufen text = document.GetText() #Text in Textdatei schreiben WriteAllText(outputFile, text) document.Close()
Extrahierter Text
Das Extrahieren von Bildern ist etwas komplexer, ob dessen untergeordnete Objekte Bilder enthalten
Code Bespiel
Python
Copy import queue from spire.doc import * from spire.doc.common import * import os outputPath = "Bilder/" inputFile = "Beispiel.docx" if not os.path.exists(outputPath): os.makedirs(outputPath) #Document-Objekt erstellen document = Document() #Word-Dokument laden document.LoadFromFile(inputFile) #Warteschlange erstellen und Dokumentenelemente hinzufügen nodes = queue.Queue() nodes.put(document) #Liste erstellen images = [] #Dokumentenelemente durchlaufen while nodes.qsize() > 0: node = nodes.get() for i in range(node.ChildObjects.Count): #Untergeordnetes Objekt des Dokumentenelements abrufen child = node.ChildObjects.get_Item(i) #Prüfen, ob es ein Bild ist if child.DocumentObjectType == DocumentObjectType.Picture: picture = child if isinstance(child, DocPicture) else None dataBytes = picture.ImageBytes #Zur Liste hinzufügen images.append(dataBytes) #Prüfen, ob es ein zusammengesetztes Objekt ist elif isinstance(child, ICompositeObject): #Zur Warteschlange hinzufügen nodes.put(child if isinstance(child, ICompositeObject) else None) #Bilder speichern for i, item in enumerate(images): fileName = "Bild-{}.png".format(i) with open(outputPath+fileName,'wb') as imageFile: imageFile.write(item) document.Close()
Extrahierte Bilder
Der erstellte Text wird mit angehängten Bewertungsinformationen gespeichert. Sie können die Bewertungsinformationen direkt am Anfang des Textes löschen.
Dies ist eine Einführung in die Verwendung von Spire.Doc für Python zum Extrahieren von Text und Bildern aus Word-Dokumenten. Spire.Doc für Python unterstützt viele andere Dokumentoperationen. Schauen Sie sich die offizielle Website an oder treten Sie dem Spire.Doc-Forum bei.
Das obige ist der detaillierte Inhalt vonExtrahieren Sie Text und Bilder aus Word-Dokumenten mit Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!