Um den Textinhalt in einer HTML-Datei zu lesen, führen Sie die folgenden Schritte aus: Laden Sie die HTML-Datei. Analysieren Sie den HTML-Code. Extrahieren Sie den Text mit dem Textattribut oder der get_text()-Methode. Optional: Bereinigen Sie den Text (entfernen Sie Leerzeichen und Sonderzeichen und konvertieren Sie ihn in Kleinbuchstaben) Geben Sie den Text aus (Drucken, in Dateien schreiben usw.).
1. HTML-Dateien laden
<code class="python">import requests url = 'https://example.com' response = requests.get(url)</code>
<code class="python">from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')</code>
Es gibt zwei Möglichkeiten, Textinhalte zu extrahieren:
Verwenden Sie den text
Attribut: Textinhalt innerhalb des HTML-Tags extrahieren. Gesamter Text, einschließlich der Beschriftung selbst.
<code class="python">text = soup.text</code>
Verwenden Sie die Methode get_text()
:
<code class="python">text = soup.get_text()</code>
text
属性:提取 HTML 标签内的所有文本,包括标签本身。<code class="python">text = text.replace(' ', '')</code>
get_text()
Wenn Sie den Textinhalt weiter bereinigen müssen, können Sie die folgenden Vorgänge ausführen: Leerzeichen entfernen:
<code class="python">import string text = text.translate(str.maketrans('', '', string.punctuation))</code>
<code class="python">text = text.lower()</code>
<code class="python">print(text)</code>
Auf der Konsole drucken:
<code class="python">with open('output.txt', 'w') as f: f.write(text)</code>
Das obige ist der detaillierte Inhalt vonSo lesen Sie Textinhalte in einer HTML-Datei. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!