So lesen Sie Textinhalte in einer HTML-Datei

下次还敢
Freigeben: 2024-04-11 13:57:24
Original
496 Leute haben es durchsucht

Um den Textinhalt in einer HTML-Datei zu lesen, führen Sie die folgenden Schritte aus: Laden Sie die HTML-Datei. Analysieren Sie den HTML-Code. Extrahieren Sie den Text mit dem Textattribut oder der get_text()-Methode. Optional: Bereinigen Sie den Text (entfernen Sie Leerzeichen und Sonderzeichen und konvertieren Sie ihn in Kleinbuchstaben) Geben Sie den Text aus (Drucken, in Dateien schreiben usw.).

1. HTML-Dateien laden

<code class="python">import requests

url = 'https://example.com'
response = requests.get(url)</code>
Nach dem Login kopieren
So lesen Sie Textinhalte in einer HTML-Datei2. HTML analysieren

<code class="python">from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')</code>
Nach dem Login kopieren

3. Textinhalte extrahieren

Es gibt zwei Möglichkeiten, Textinhalte zu extrahieren:

Verwenden Sie den text Attribut: Textinhalt innerhalb des HTML-Tags extrahieren. Gesamter Text, einschließlich der Beschriftung selbst.

<code class="python">text = soup.text</code>
Nach dem Login kopieren

Verwenden Sie die Methode get_text():

Extrahieren Sie den Text innerhalb des HTML-Tags, ignorieren Sie jedoch das Tag selbst.

<code class="python">text = soup.get_text()</code>
Nach dem Login kopieren
  • 4. Textinhalt bereinigen (optional) text 属性:提取 HTML 标签内的所有文本,包括标签本身。
<code class="python">text = text.replace(' ', '')</code>
Nach dem Login kopieren
  • 使用 get_text()Wenn Sie den Textinhalt weiter bereinigen müssen, können Sie die folgenden Vorgänge ausführen:

Leerzeichen entfernen:

<code class="python">import string

text = text.translate(str.maketrans('', '', string.punctuation))</code>
Nach dem Login kopieren
  • Sonderzeichen entfernen Zeichen:
<code class="python">text = text.lower()</code>
Nach dem Login kopieren
  • In Kleinbuchstaben umwandeln:
<code class="python">print(text)</code>
Nach dem Login kopieren
    5. Textinhalt ausgeben
  • Sie können Textinhalte auf viele Arten ausgeben:

Auf der Konsole drucken:

<code class="python">with open('output.txt', 'w') as f:
    f.write(text)</code>
Nach dem Login kopieren
  • Datei schreiben:
  • rrreee

Das obige ist der detaillierte Inhalt vonSo lesen Sie Textinhalte in einer HTML-Datei. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage