Um den Textinhalt in einer HTML-Datei zu lesen, führen Sie die folgenden Schritte aus: Laden Sie die HTML-Datei. Analysieren Sie den HTML-Code. Extrahieren Sie den Text mit dem Textattribut oder der get_text()-Methode. Optional: Bereinigen Sie den Text (entfernen Sie Leerzeichen und Sonderzeichen und konvertieren Sie ihn in Kleinbuchstaben) Geben Sie den Text aus (Drucken, in Dateien schreiben usw.).
1. HTML-Dateien laden
import requests url = 'https://example.com' response = requests.get(url)
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
Es gibt zwei Möglichkeiten, Textinhalte zu extrahieren:
Verwenden Sie den text</code > Attribut: <strong>Textinhalt innerhalb des HTML-Tags extrahieren. Gesamter Text, einschließlich der Beschriftung selbst. </strong></p><div class="code" style="position:relative; padding:0px; margin:0px;"><pre class='brush:php;toolbar:false;'>text = soup.text</pre><div class="contentsignin">Nach dem Login kopieren</div></div><p><strong></strong>Verwenden Sie die Methode <code>get_text()
:
text = soup.get_text()
text
属性:提取 HTML 标签内的所有文本,包括标签本身。text = text.replace(' ', '')
get_text()
Wenn Sie den Textinhalt weiter bereinigen müssen, können Sie die folgenden Vorgänge ausführen: Leerzeichen entfernen:
import string text = text.translate(str.maketrans('', '', string.punctuation))
text = text.lower()
print(text)
Auf der Konsole drucken:
with open('output.txt', 'w') as f: f.write(text)
Das obige ist der detaillierte Inhalt vonSo lesen Sie Textinhalte in einer HTML-Datei. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!